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内 容 简 介 

本 书 系统 地 介绍 了 大 数据 挖掘 的 基本 概念 、 经 典 挖掘 算法 、 挖 掘 工具 和 企业 智慧 运营 应 用 案例 。 

全 书 分 为 9 章 ， 内 容 包括 : 大 数据 挖掘 与 智慧 运营 的 概念 ， 数 据 预 处 理 ， 数 据 挖 掘 中 的 四 种 主流 算法 ; 
聚 类 分 析 、 分 类 分 析 、 回 归 分 析 、 关 联 分 析 ， 增 强 型 数据 挖掘 算法 ， 数 据 挖 掘 在 运营 商 智慧 运营 中 的 应 
用 案例 ， 未 来 大 数据 挖掘 的 发 展 趋势 等 。 

全 书 以 运用 大 数据 挖掘 方法 提升 企业 运营 业绩 与 效率 为 主线 ， 从 运营 商 实际 工作 中 选取 了 大 量 运营 
和 销售 案例 , 详细 讲述 了 数据 采集 、 挖掘 建 模 、 模 型 落地 与 精准 营销 的 全 部 过 程 。 书 中 大 部 分 案例 的 代码 、 
软件 操作 流程 和 微 课 视频 可 以 通过 扫描 本 书 封底 的 二 维 码 下 载 。 

本 书 主要 面向 运营 商 及 其 他 高 科技 企业 员工 、 高 等 院 校 相 关 专 业 本 科 生 和 研究 生 ， 以 及 其 他 对 数据 
挖掘 与 精准 营销 感 兴趣 的 读者 。 
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数据 挖掘 (Data Mining) ， 是 指 从 数据 中 发 现 知识 的 过 程 (Knowledge Discovery 
in Databases，KDD)。 狭 义 的 数据 挖掘 一 般 指 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 
的 、 随 机 的 实际 应 用 数据 中 ， 提 取 隐 含 其 中 的 、 人 们 事先 不 知道 的 、 但 又 是 潜在 有 用 
知识 的 过 程 。 自 从 计算 机 发 明之 后 ， 科 学 家 们 先后 提出 了 许多 优秀 的 数据 挖掘 算法 。 
2006 年 12 月 ， 在 数据 挖掘 领域 的 权威 学 术 会 议 the IEEE International Conference on 
Data Mining (ICDM) E, 科学 家 们 评选 出 了 该 领域 的 十 大 经 典 算法 : C4.5、K-Means、 
SVM、Apriori、EM、PageRank、 AdaBoost, KNN, Naive Bayes 和 CART。 这 是 数据 
挖掘 学 科 的 一 个 重要 里 程 碑 ， 从 此 数据 挖掘 在 理论 研究 和 实际 应 用 两 方面 均 进 入 飞速 
发 展 时 期 ， 并 得 到 广泛 关注 。 

在 实际 生产 活动 中 , 许多 问题 都 可 以 用 数据 挖掘 方法 来 建 模 ,从 而 提升 运营 效率 。 
例如 ， 某 企业 在 其 移动 终端 应 用 (App) 上 售卖 各 种 商品 ， 它 希望 向 不 同 的 客户 群体 
精准 推送 差异 化 的 产品 和 服务 ， 从 而 提升 销售 业绩 。 在 这 个 案例 中 ， 如 何 将 千 万 量 级 
的 客户 划分 为 不 同 的 客户 群体 ， 可 以 由 数据 挖掘 中 的 聚 类 分 析 算法 来 完成 ， 针 对 某 个 
客户 群体 ， 如 何 判断 某 个 产品 是 否 是 他 们 感 兴趣 的 ， 可 以 由 数据 挖掘 中 的 分 类 分 析 算 
法 来 完成 ， 如 何 发 现 某 个 客户 群体 感 兴趣 的 各 种 产品 之 间 的 关联 性 ， 应 该 把 哪些 产品 
打包 为 套餐 ， 可 以 由 数据 挖掘 中 的 关联 分 析 算 法 来 完成 ， 如 何 发 现 某 个 客户 群体 的 兴 
趣 爱好 的 长 期 趋势 ， 可 以 由 数据 挖掘 中 的 回归 算法 来 完成 ， 如 何 综合 考虑 公司 的 KPI 
指标 、 营 销 政 策 和 App 页 面 限制 等 条 件 ， 制 订 最 终 的 落地 营销 方案 ， 可 以 基于 数据 
挖掘 中 的 ROC 曲线 建立 数学 模型 求 得 最 优 解 来 解决 。 

当前 , 许多 企业 正面 临 前 所 未 有 的 竞争 压力 。 以 运营 商 企业 为 例 ， 从 政策 层面 看 ， 
国家 提出 了 “提速 降 费 ”的 战略 指示 : 一 方面 要 提高 网 络 连接 速度 、 提 供 更 好 的 服务 ， 
这 意味 着 公司 成 本 的 提高 ; 另 一 方面 要 降低 资费 标准 , 这 意味 着 单个 产品 收入 的 下 降 ， 
运营 商 该 如 何 化 解 这 对 矛盾 ? 从 运营 商 内 部 数据 统计 看 ， 传 统 的 语音 和 短信 、 彩 信 业 
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务 收 入 占 比 正 不 断 下 降 ， 传 统 的 利润 点 已 经 风光 不 再 ; 流量 收入 目前 已 占据 主要 位 置 
并 保持 上 涨 趋势 ， 但 单纯 的 流量 经 营 又 将 面临 “管道 化 ”压力 ; 未 来 的 利润 增长 点 要 
让 位 于 被 称 为 “第 三 条 曲线 ”的 数字 化 服务 。 运 营 商 该 如 何 经 营 这 一 新 鲜 事物 ?从 外 
部 环境 看 ， 互 联网 和 电子 商务 企业 借助 其 在 各 方面 的 优势 ， 已 经 对 运营 商 形成 了 巨大 
的 压力 ， 特 别 是 在 数字 化 服务 营销 领域 ， 传 统 运营 商 企业 已 经 不 再 具备 优势 ， 又 该 如 
何 应 对 互联 网 企业 的 全 面 竞 争 ? 

随 着 移动 互联 网 和 物 联 网 时 代 的 来 临 ， 人 和 万 事 万 物 被 广泛 地 联系 在 一 起 。 人 
们 在 联系 的 过 程 产 生 了 大 量 的 数据 ， 例 如 用 户 基础 信息 、 网 页 浏览 记录 、 历 史 消 费 记 
录 、 视 频 监 控 影像 ， 等 等 。 据 此 ， 以 Google 为 首 的 互联 网 公司 提出 了 “大 数据 ”(Big 
Data) 的 概念 ， 并 声称 人 类 已 经 脱离 了 信息 时 代 〈Information Time, IT) ， 进 入 了 大 
数据 时 代 (Data Time, DT) 。 显 然 ， 海 量 数据 包含 了 非常 丰富 的 浅 层次 信息 和 深层 
次 知识 。 对 于 同一 竞争 领域 的 企业 ， 谁 能 获取 最 大 量 的 数据 ， 展 开 最 精准 的 数据 挖掘 
与 建 模 分 析 ， 并 加 以 精细 化 的 落地 实施 ， 谁 便 能 在 行业 竞争 中 取得 优势 。 对 于 运营 商 
企业 而 言 ， 其 具备 的 一 个 显著 优势 便 是 手 握 海量 数据 资源 。 如 果 能 运用 先进 的 数据 挖 
据 技 术 找 出 客户 的 行为 规律 ， 从 传统 的 经 验 式 、 粗 放 式 、“ 一 刀 切 ” 式 的 运营 决策 向 
数据 化 、 精 细 化 、 个 性 化 的 运营 决策 转型 ， 运 营 商 将 迎 来 新 的 腾飞 。 上 述 运 营 模 式 转 
型 的 目标 ， 便 是 所 谓 的 “智慧 运营 ”。 

目前 ， 人 类 对 大 数据 尚 没有 统一 的 、 公 认 的 定义 ， 但 几乎 所 有 学 者 和 企业 都 认同 
大 数据 具备 四 大 特征 (四 大 挑战 ) : 体 量 巨大 〈Volume) 、 类 型 繁多 (Variety) 、 价 
值 密度 低 (Value) 、 需 要 实时 处 理 (Velocity) 。 这 其 中 最 重要 的 一 点 是 类 型 繁多 ， 
即 过 去 人 类 的 数据 储备 以 结构 化 数据 为 主 ， 而 未 来 将 以 非 结 构 化 数据 为 主 。 回 到 之 前 
提 到 的 App 营销 案例 ， 企 业 基于 用 户 的 基础 信息 、 历 史 消 费 信 息 、 简 单 的 网 络 行为 
信息 等 结构 化 数据 展开 挖掘 建 模 ， 被 认为 是 传统 的 “基于 数据 挖掘 的 智慧 运营 ”。 随 
着 时 代 的 发 展 ， 企 业 还 掌握 了 用 户 观看 在 线 视 频 的 内 容 数据 、 在 营业 网 点 接受 营业 员 
推荐 的 表情 信息 和 语言 交流 数据 、 用 户 在 客服 热线 中 的 语音 咨询 数据 等 。 这 些 数据 被 
统称 为 非 结 构 化 数据 ， 随 着 语音 识别 、 人 脸 识 别 、 语 义 识 别 等 新 技术 的 发 展 成 熟 ， 对 
非 结构 化 数据 的 分 析 控 掘 已 成 为 可 能 ， 并 将 获得 广阔 的 商业 应 用 空间 。 基 于 非 结构 化 
数据 的 挖掘 建 模 又 被 称 为 “基于 人 工 智 能 的 智慧 运营 ”。 考 虑 当前 大 部 分 企业 的 实际 
运营 现状 ， 本 书 将 主要 围绕 “基于 数据 挖掘 的 智慧 运营 ”展开 讨论 ，“ 基 于 人 工 智 能 
的 智慧 运营 ”将 在 后 续 书 籍 中 展开 讨论 。 

本 书 共 分 为 九 章 : 第 1 章 大 数据 、 数 据 控 掘 与 智慧 运营 综述 ， 讲 述 数据 挖掘 的 基 
本 概念 和 发 展 史 、 大 数据 的 时 代 特 征 、 当 前 结构 化 数据 挖掘 进展 、 非 结构 化 数据 挖掘 
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Tip 


与 人 工 技能 进展 、 数 据 挖掘 的 主流 软件 等 ;第 2 章 数据 统计 与 数据 预 处 理 ， 讲 述 在 数 
据 挖 掘 之 前 的 数据 集成 、 数 据 清洗 、 数 据 衍 生 、 数 据 统 计 等 ;第 3 章 聚 类 分 析 ， 重 点 
讲述 K-means、BIRCH、DBSCAN、CLIQUE 等 几 种 主流 经 典 聚 类 算法 ; 第 4 章 分 类 
分 析 ， 重 点 讲述 决策 树 、KNN、 贝 叶 斯 、 神 经 网 络 、SVM 等 几 种 主流 分 类 算法 ， 第 
5 章 回归 分 析 ， 重 点 讲述 线性 回归 、 非 线性 回归 、 逻 辑 回归 等 几 种 主流 回归 算法 ;第 
6 章 关 联 分析 ， 重 点 讲述 Apriori、FP-tree 等 几 种 主流 关联 算法 ;第 7 章 增 强 型 数据 
挖掘 算法 ， 重 点 讲述 随机 森林 、Bagging、Boosting 等 几 种 主流 增强 算法 ， 第 8 章 数 
据 挖 掘 在 运营 商 智慧 运营 中 的 应 用 ， 展 开讲 述 数据 挖掘 方法 在 外 呼 营销 、 精 准 推送 、 
套餐 适 配 、 客 户 保有 、 投 诉 预警 、 网 络 质量 监控 、 室 内 定位 中 的 应 用 ; 第 9 章 面向 未 
来 大 数据 的 数据 挖掘 与 机 器 学 习 发 展 趋势 ， 简 要 讲述 数据 挖掘 领域 的 前 沿 研究 进展 。 

全 书 以 运用 大 数据 挖掘 方法 提升 企业 运营 业绩 与 效率 为 主线 。 第 3 章 至 第 7 章 组 
成 本 书 的 理论 知识 部 分 ， 在 讲述 理论 知识 的 同时 ， 这 部 分 每 章 都 配套 列举 了 大 量 实际 
应 用 案例 ， 及 其 在 SPSS 等 分 析 软 件 中 的 具体 操作 流程 。 此 外 ， 第 8 章 从 运营 商 实际 
工作 中 选取 了 大 量 运营 和 销售 案例 ， 详 细 讲 述 了 数据 采集 、 挖 掘 建 模 、 模 型 落地 与 
精准 营销 的 全 部 过 程 。 书 中 大 部 分 案例 的 代码 、 软 件 操作 流程 和 微 课 视 频 可 以 通过 
扫描 本 书 封底 的 二 维 码 下 载 。 

本 书 基于 作者 所 带领 的 研究 团队 多 年 研究 积累 和 在 运营 商 企业 广泛 落地 应 用 的 
基础 上 提炼 而 成 。 全 书 由 曾 丽 丽 博 士 组 织 并 统 稿 ， 梁 栋 、 张 兆 静 和 彭 木 根据 写 了 主要 
章节 ， 研 究 团队 中 的 谢 花花 、 柯 联 兴 、 张 笑 遍 、 鲁 晨 、 李 子 凡 等 在 读 研 究 生 参与 了 部 
分 章节 的 写作 , 胡 林 、 唐 糖 等 团队 外 专家 参与 了 部 分 章节 的 写作 并 给 出 了 宝贵 的 意见 。 
在 本 书写 作 过 程 中 ， 中 国 移动 及 许多 省 市 分 公司 (特别 是 广西 分 公司 ) 给 予 了 大 力 支 
F. 在 本 书 出 版 前 , 许多 素材 被 中 国 移动 广西 分 公司 选 为 教材 并 展开 了 广泛 落地 应 用 ， 
获得 了 2016 年 中 国 移动 集团 公司 颁发 的 “培训 案例 最 佳 实践 奖 ”。 在 本 书 出 版 过 程 中 
得 到 了 深圳 市 傲 举 企业 管理 顾问 有 限 公 司 的 大 力 支持 。 在 此 对 有 关 人 员 一 并 表示 诚挚 
的 感谢 ! 

由 于 作者 能 力 所 限 ， 玻 漏 之 处 在 所 难免 ， 希 望 各 位 读者 海 涵 ， 并 批评 指正 。 


作 者 
2017 年 9 月 于 北京 邮电 大 学 


m | 


目录 


大 数据 、 数据 挖掘 与 智慧 运营 综述 eee eee eee eee eee eee eed 4 


1.1 


数据 挖掘 的 发 展 史 
1.1.1 数据 挖掘 的 定义 与 起 源 … 
1.1.2 ”数据 挖掘 的 早期 发 展 
1.1.3 ”数据 挖掘 的 算法 前 传 … 
1.1.4 数据 挖掘 的 第 一 个 里 程 碑 … 
1.1.5 最近 十 年 的 发 展 与 应 用 …… 
数据 挖掘 的 主要 流程 与 金字 塔 模型 . 
1.2.1 数据 挖掘 的 任务 
1.2.2 ”数据 挖掘 的 基本 步骤 … 
1.2.3 数据 挖掘 的 架构 一 一 云 计 算 … 
1.2.4 “人 金字塔” 模型 
数据 挖掘 对 智慧 运营 的 意义 
1.3.1 “互联 网 +” 时 代 的 来 临 及 其 对 运营 商 的 冲击 和 挑战 … 
1.3.2 ”大 数据 时 代 的 来 临 及 其 对 运营 商 的 挑战 和 机 遇 
13.3 ”电信 运营 商 运营 发 展 面临 的 主要 瓶颈 …… …26 
13.4 电信 运营 商 发 展 的 “三 条 曲线 ” 
1.3.5 智慧 运营 与 大 数据 变现 … 
13.6 ”数据 挖掘 对 于 提升 智慧 运营 效率 的 意义 … 
大 数据 时 代 已 经 来 临 … 
1.4.1 大 数据 的 定义 

























































| vI 


大 数据 、 数 据 挖掘 与 智慧 运营 


1.5 


1.6 


Ly 


1.4.2 大 数据 的 “4V” 特 征 
1.4.3 ”结构 化 数据 与 非 结构 化 数据 … 











1.5.1 
15.2 ”模式 识别 … 
1.5.3 语音 识别 … 
1.5.4 视频 识别 
1.5.5 其 他 非 结构 化 数据 挖掘 … 
数据 挖掘 与 机 器 学 习 、 深 度 学 习 、 人 工 智 能 及 云 计 算 
1.6.1 机 器 学 习 … 
1.6.2 深度 学 习 … 
16.3 ”人 工 智能 … 
164 云 计 算 
现 有 数据 挖掘 的 主要 分 析 软 件 与 系统 … 
1.7.1 Hadoop 
































Eor E E AEE L S E 73 
Si e E 74 


22 


23 







2.1.1 数据 属性 定义 
2.1.2 ”离散 属性 
2.1.3 连续 属性 … 
数据 的 统计 特性 
2.2.1 中 心 趋势 度量 
2.2.2 ”数据 散布 度量 
2.2.3 ”数据 相关 性 
数据 预 处 理 
2.3.1 数据 预 处 理 概述 




















2.4 


25 


34 


3.5 


23.2 ”数据 预 处 理 的 主要 任务 … 









2.33 
2.3.4 
2.3.5 
2.3.6 
数据 字段 的 衍生 


2.4.1 数据 字段 的 拆 分 
24.2 ”统计 特征 的 构造 
2.4.3 ”数据 域 的 变换 ……… 
SPSS 软件 中 的 数据 预 处 理 案例 … 
2.5.1 缺失 值 的 实 操 处 理 
2.5.2 ”噪声 数据 的 实 操 处 理 
2.5.3 ” 主 成 分 分 析 的 实 操 处 理 … 

















聚 类 算法 的 评估 
基于 划分 的 聚 类 : K-means… 
3.3.1 基于 划分 的 聚 类 算法 概述 … 
3.3.2 KK-means 聚 类 算法 原理 
3.3.3 ”区 -means 算 法 的 优势 与 劣势 
3.3.4 ”区 -means 算 法 优化 
3.3.5 ”SPSS 软 件 中 的 K-means 算 法 应 用 案例 … 
基于 层次 化 的 聚 类 : BIRCH 
3.4.1 基于 层次 化 的 聚 类 算法 概述 … 
3.4.2 BIRCH 算法 的 基本 原理 
3.4.3 ”BIRCH 算 法 的 优势 与 劣势 … 
基于 密度 的 聚 类 : DBSCAN 
3.5.1 基于 密度 的 聚 类 算法 概述 … 
3.5.2 DBSCAN 算 法 的 基本 原理 
3.5.3 DBSCAN 算 法 的 优势 与 劣势 … 










































| VI 大 数据 、 数 据 挖掘 与 智慧 运营 


3.6 ”基于 网 格 的 聚 类 : CLIQUE 
3.6.1 基于 网 格 的 聚 类 算法 概述 … 











C4.5 决 策 树 … 

4.3.5 CART 决 策 树 
4.3.6 决策 树 中 的 剪 枝 问 题 
4.3.7 ”决策 树 在 SPSS 中 的 应 用 … 

44 最 近邻 分 析 (KNN) 
4.4.1 KNN 算 法 的 基本 原理 
4.4.2 
443 ”KNN 算 法 的 若干 问题 
4.4.4 KNN 分 类 器 的 特征 
4.4.5 KNN 算 法 在 SPSS 中 的 应 用 

4.5 贝 叶 斯 分 析 
45.1 贝 叶 斯 定理 … 
4.5.2 ”朴素 贝 叶 斯 分 类 
453 贝 叶 斯 网 络 … 












































462 多重 人 工 神经 网 络 - 
463 人 工 神 经 网 络 的 特点 … 
4.7 支持 向 量 机 











5.1 
52 


53 


5.4 


53 


4.7.1 支持 向 量 机 简介 
47.2 ”最 大 边缘 超 平面 
4.7.3 ”数据 线性 可 分 的 情况 
4.7.4 ”数据 非 线性 可 分 的 情况 … 
支持 向 量 机 的 特征 - 

















5.2.1 一 元 线性 回归 的 基本 原理 … 
5.2.2 一 元 线性 回归 性 能 评估 
5.2.3 SPSS 软 件 中 一 元 线性 回归 应 用 案例 
多 元 线性 回归 
5.3.1 多 元 线性 回归 基本 原理 … 
5.3.2 ” 自 变量 选择 方法 
5.3.3 ”SPSS 软 件 中 的 多 元 线性 回归 应 用 案例 
非 线性 回归 
5.4.1 非 线 性 回归 基本 原理 … 
5.4.2 FERRET 
5.4.3 ”指数 回归 分 析 
5.4.4 对 数 回 归 分 析 
5.4.5 多 项 式 回 归 分 析 
5.4.6” 非 线性 模型 线性 化 和 曲线 回归 … 

































5.5.3 ”多 元 逻辑 回归 
5.5.4 SPSS 软件 中 的 逻辑 回归 应 用 案例 … 











Ix 大 数据 、 数 据 挖 掘 与 智慧 运 


1 


SORE RAAR ee 


6.1 关联 分 析 概 述 
6.2 关联 分 析 的 评估 指标 … 
62.1 支持 度 … 
6.2.2 EAR- 
6.2.3 算法 复杂 度 … 
6.3 Apriori 算法 … 
6.3.1 频繁 项 集 的 定义 与 产生 … 
6.3.2 
6.3.3 基于 支持 度 的 计数 与 剪 枝 … 
6.3.4 ”候选 项 集 生成 
63.5 基于 置信 度 的 剪 枝 
6.3.6 ”Apriori 算 法 规则 生成 … 































6.4 
6.4.1 
6.4.2 ”FP-tree 算 法 频繁 项 集 的 产生 … 
6.4.3 ”FP-tree 算 法 规则 生成 
6.4.4 算法 性 能 对 比 与 评估 … 













第 7 章 增强 型 数据 挖掘 算法 Pp PP S nusen B iranerne anaia iaa 271 


7.1 增强 型 数据 挖掘 算法 概述 
7.1.1 组 合 方法 的 优势 
712 ”构建 组 合 分 类 器 的 方法 … 





72 





7.23 ”随机 森林 的 泛 化 误差 … 
7.24 输入 特征 的 选择 方法 
73 Bagging 算法 











TS 


7.6 


8.1 
8.2 


8.3 


8.4 


7.4.2 AdaBoost 算 法 原理 
7.4.3 AdaBoost 算 法 的 优 缺 点 … 
提高 不 平衡 数据 的 分 类 准确 率 …… 
7.5.1 不 平衡 数据 
7.5.2 不 平衡 数据 的 处 理 方法 一 一 数据 层面 
7.5.3 ”不 平衡 数据 的 处 理 方法 一 一 算法 层面 




















7.6.1 迁移 学 习 的 基本 原理 
76.2 ”迁移 学 习 的 分 类 
7.6.3 迁移 学 习 与 数据 挖掘 














8.2.1 
8.2.2 
8.2.3 
8.2.4 制定 层次 化 、 个 性 化 精准 营销 方案 
多 种 互联 网 业务 的 精准 推送 
8.3.1 根据 历史 营销 规律 总 结 单个 业务 的 历史 营销 规律 
8.3.2 ”预测 潜在 客户 群体 、 预 测 单个 业务 的 潜在 客户 群体 及 多 个 业务 的 












8.3.3 制定 多 业务 层次 化 个 性 化 联合 精准 营销 方案 … 
8.3.4 落地 效果 评估 
套餐 精准 适 配 … 














| XI 


大 数据 、 数 据 挖掘 与 智慧 运营 


844 多 元 线性 回归 建 模 
8.4.5 ”制定 层次 化 、 个 性 化 精准 营销 方案 
8.4.6 落地 效果 评估 与 模型 调 优 … 











8.5 





8.5.2 细 分 潜在 流失 客户 群体 
8.5.3 客户 保有 效益 建 模 与 最 优 决 策 








8.6 





8.6.3 制定 个 性 化 关怀 方案 … 
8.7 网 络 质量 栅 格 化 呈现 
8.7.1 栅 格 化 呈现 的 基本 原理 … 
8.7.2 ”覆盖 栅 格 化 
8.7.3 ”基于 流量 聚 簇 的 网 络 优化 策略 
8.8 ”无 线 室 内 定位 …… 
8.8.1 传统 室内 定位 方法 …… 
8.8.2 ”基于 Wi-Fi 信 号 的 指纹 定位 算法 … 
8.8.3 ”基于 数据 挖掘 算法 的 改进 定位 方法 : 





















面向 未 来 大 数据 的 数据 挖掘 与 机 器 学 习 发 展 趋势 ………………… 385 


9.1 大 数据 时 代数 据 挖掘 与 机 器 学 习 面 临 的 新 挑战 
9.2 IEEE ICDM 会 议 数据 挖掘 与 机 器 学 习 的 最 新 研究 进展 … 
9.3 “计算 机 奥运 会 ” Sort Benchmark 









大 数据 、 数据 挖掘 与 智慧 


大 数据 、 数 据 挖掘 与 智慧 运营 


近年 来 ， 大 数据 、 数 据 挖掘、 机 器 学 习 、 云 计算 和 人 工 智 能 等 词语 日 渐 为 人 们 所 
熟悉 。 本 章 将 围绕 上 述 基本 概念 和 话题 展开 讨论 。 本 章 1.1 节 介 绍 数据 挖掘 的 概念 和 
发 展 史 ，1.2 节 介绍 数据 挖掘 的 主要 流程 和 金字 塔 模型 ，1.3 节 介 绍 数据 挖掘 对 企业 智 
慧 运营 的 重要 意义 ，1.4 节 介绍 大 数据 的 基本 概念 、 特 征 和 挑战 ，1.5 节 介绍 非 结构 化 
数据 挖掘 的 概念 和 研究 进展 ，1.6 节 介绍 结构 化 数据 挖掘 与 机 器 学 习 、 深 度 学 习 和 人 
工 智能 之 间 的 关联 关系 ，1.7 节 介 绍 常见 的 数据 挖掘 分 析 软 件 与 系统 。 





1.1.1 数据 挖掘 的 定义 与 起 源 


什么 是 数据 挖掘 ， 数 据 挖 掘 包括 哪些 范畴 ? 迄今 为 止 不 同 的 学 者 和 公司 仍 有 着 不 
同 的 理解 和 定义 。 例 如 有 的 学 者 认为 : 数据 挖掘 即 指 摆脱 传统 的 经 验 式 、 规 律 式 的 分 
析 方 法 ， 转 变 为 纯粹 从 数据 出 发 来 探索 问题 的 本 质 。 又 例如 有 的 公司 认为 ， 数据 挖掘 
是 一 种 从 数据 中 榨取 价值 ， 提 升 公司 运营 效率 的 重要 手段 。 然 而 ， 绝 大 部 分 学 者 和 公 
司 都 认同 数据 挖掘 的 最 基本 定义 : 从 数据 中 获取 知识 。 

数据 挖掘 具体 起 源 于 什么 年 代 现在 已 无 从 考证 。 自 从 有 了 数据 ， 人 类 就 开始 尝试 
对 数据 进行 分 析 。 随 着 时 代 的 发 展 ， 特 别 是 计算 机 技术 的 诞生 和 发 展 ， 人 类 拥有 的 数 
据 越 来 越 多 ， 种 类 越 来 越 复杂 ， 之 前 传统 的 浅 层次 的 、 以 经 验 式 、 观 察 式 为 主 的 数据 
分 析 方法 已 不 再 适用 ， 人 类 急需 一 整套 深层 次 的 、 科 学 的 数据 分 析 方法 ， 这 些 方法 的 
总 和 被 称 为 “数据 挖 气 ”。 

随 着 移动 互联 网 时 代 的 来 临 ， 我 们 每 天 都 生活 在 数据 中 ， 时 时 刻 刻 都 接触 着 来 自 
生活 各 个 方面 的 各 种 数据 : 早 高 峰 各 个 十 字 路 口 的 车 流量 ， 各 个 公司 的 股市 行情 、 销 
售票 务 、 产 品 描述 、 用 户 反馈 ， 科 学 实验 记录 着 的 种 种 信息 …… 数 据 的 产生 无 时 不 在 ， 
无 处 不 在 。 爆 炸 式 增长 、 广 泛 可 用 的 巨 量 数据 急需 功能 强大 和 通用 的 工具 ， 以 便 发 现 
它们 潜在 的 巨大 价值 。 交 警部 门 需要 通过 对 车 流量 数据 的 观察 来 决定 警力 支配 ;公司 
需要 通过 对 方方面面 商业 数据 的 分 析 来 制订 合理 的 发 展 计划 ; 科学 研究 工作 者 需要 对 
来 自 实验 的 种 种 数据 研究 来 实现 实验 目的 …… 人 们 越 来 越 关注 如 何 把 海量 的 数据 变 
为 直观 、 有 用 的 信息 。 人 类 的 需求 是 发 明之 母 ， 人 们 对 数据 所 蕴含 的 潜在 知识 的 需求 


第 1 章 大 数据 、 数 据 挖掘 与 智慧 运营 综述 





促使 了 数据 挖掘 的 诞生 。 

近年 来 ， 数 据 挖掘 引起 了 信息 产业 界 的 极 大 关注 ， 其 主要 原因 是 存在 大 量 数据 可 
以 广泛 使 用 ， 并 且 人 迫切 需要 将 这 些 数据 转换 成 有 用 的 信息 和 知识 。 获 取 的 信息 和 知识 
可 以 被 广泛 用 于 各 种 应 用 ， 包 括 商务 管理 、 生 产 控制 、 市 场 分 析 、 工 程 设计 和 科学 探 
索 等 。 

数据 挖掘 利用 了 来 自如 下 领域 的 思想 : 

(1) 来 自 统计 学 的 抽样 、 估 计 和 假设 检验 。 

(2) 人 工 智能 、 模 式 识 别 和 机 器 学 习 的 搜索 算法 、 建 模 技术 和 学 习 理论 。 

数据 挖掘 也 迅速 地 接纳 了 来 自 其 他 领域 的 思想 , 这 些 领 域 包括 最 优化 、 进 化 计算 、 
信息 论 、 信 号 处 理 、 可 视 化 和 信息 检索 。 一 些 其 他 领域 也 起 到 重要 的 支撑 作用 。 特 别 
的 ， 需 要 数据 库 系 统 提供 有 效 的 存储 、 索 引 和 查询 处 理 支持 。 源 于 高 性 能 〈 并 行 ) 计 
算 的 技术 在 处 理 海量 数据 集 方面 常常 是 重要 的 。 分 布 式 技术 也 能 帮助 处 理 海量 数据 ， 
并 且 当 数据 不 能 集中 到 一 起 处 理 时 更 是 至 关 重 要 。 


1.1.2 ”数据 挖掘 的 早期 发 展 


数据 挖掘 起 始 于 20 世纪 下 半 叶 ， 是 在 多 个 学 科 发 展 的 基础 上 逐步 发 展 起 来 的 。 
随 着 大 数据 与 数据 库 技术 的 发 展 应 用 ， 数 据 量 不 断 积累 与 膨胀 ， 这 导致 基础 的 查询 和 
统计 操作 已 经 无 法 满足 企业 的 商业 需求 。 如 何 挖掘 出 数据 隐 含 的 信息 是 当前 亚 须 解决 
的 难题 。 与 此 同时 ， 计 算 机 领域 的 人 工 智能 (Artificial Intelligence) 方向 也 取得 了 巨 
大 进展 ， 进 入 了 机 器 学 习 的 阶段 。 因 此 ， 人 们 将 两 者 结合 起 来 ， 用 数据 库 管理 系统 存 
储 数据 ， 用 计算 机 分 析 数据 ， 并 且 尝 试 挖掘 数据 背后 的 信息 。 这 两 者 的 结合 促 生 了 一 
门 新 的 学 科 ， 即 数据 库 中 的 知识 发 现 (Knowledge Discovery in Databases, KDD) 。 
1989 年 8 月 召开 的 第 11 届 国 际 人 工 智能 联合 会 议 的 专题 讨论 会 上 首次 出 现 了 “知识 
发 现 ” 这 个 术语 ， 到 目前 为 止 ， 知 识 发 现 的 重点 已 经 从 发 现 方法 转向 了 实践 应 用 。 

数据 挖掘 (Data Mining) MÆ KDD 的 核心 部 分 ， 它 指 的 是 从 数据 集合 中 自动 抽 
取 隐 藏 在 数据 中 那些 有 用 信息 的 非 平凡 过 程 ， 这 些 信 息 的 表现 形式 为 规则、 概念 、 
规律 及 模式 等 。 进 入 21 世纪 ， 数 据 挖掘 已 经 成 为 一 门 比较 成 熟 的 交叉 学 科 ， 并 且 数 
据 挖 掘 技术 也 伴随 着 信息 技术 的 发 展 日 益 成 熟 起 来 。 总 体 来 说 ， 数 据 挖掘 融 合 了 数据 
库 、 人 工 智能 、 机 器 学 习 、 统 计 学 、 高 性 能 计算 、 模 式 识 别 、 神 经 网 络 、 数 据 可 视 化 、 
信息 检索 和 空间 数据 分 析 等 多 个 领域 的 理论 和 技术 ， 是 21 世纪 初期 对 人 类 产生 重大 
影响 的 十 大 新 兴 技 术 之 一 。 
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113 数据 挖掘 的 算法 前 传 


如 果 把 数据 比 作 海洋 ， 数 据 挖掘 是 在 数据 大 海中 航行 ， 那 么 算法 就 是 航行 中 指明 
方向 的 指南 针 。 从 广义 来 说 ， 任 何 定义 明确 的 计算 步骤 都 可 称 为 算法 ， 接 受 一 个 或 一 
组 值 为 输入 ， 输 出 一 个 或 一 组 值 。 可 以 这 样 理解 ， 算 法 是 用 来 解决 特定 问题 的 一 系列 
步骤 (不 仅 计算 机 需要 算法 ， 我 们 在 日 常生 活 中 也 在 使 用 算法 ) 。 算 法 必须 具备 如 下 
3 个 重要 特性 : 

CL) 有 穷 性 ， 有 限 的 步骤 后 就 必须 结束 。 

(2) 确切 性 ， 算 法 的 每 个 步骤 都 必须 确切 定义 。 

G) 可 行 性 ， 特 定 算法 须 可 以 在 特定 的 时 间 内 解决 特定 问题 。 

其 实 ， 算 法 虽然 广泛 应 用 在 计算 机 领域 ， 但 却 完全 源 自 数学 。 据 称 ， 人 类 已 知 最 早 
的 算法 可 追溯 到 公元 前 1600 年 巴比伦 人 (Babylonians) 有 关 求 因 式 分 解 和 平方 根 的 算法 。 

20 世纪 末 以 来 ， 随 着 科学 技术 的 发 展 、 通 信 技 术 的 改进 和 计算 机 性 能 的 提升 ， 
如 何 快速 处 理 数 据 ， 提 高 解决 问题 的 效率 ， 显 得 尤为 重要 。 各 类 算法 的 提出 与 优化 为 
一 系列 难题 的 解决 提供 了 切实 可 行 的 方案 。 早 前 影响 较为 广泛 的 十 大 算法 如 下 。 

1. 归并 排序 ( Merge Sort) 、 快 速 排序 ( Quick Sort ) 和 堆积 排序 ( Heap Sort ) 

归并 排序 算法 ， 是 目前 为 止 最 重要 的 算法 之 一 ， 是 分 治 法 的 一 个 典型 应 用 ， 由 数 
FRWD e WKE John von Neumann) 于 1945 年 发 明 。 

快速 排序 算法 ， 结 合 了 集合 划分 算法 和 分 治 算法 ， 不 是 很 稳定 ， 但 在 处 理 随机 列 
阵 CAM-based arrays) 时 效率 相当 高 。 

堆积 排序 ， 采 用 优先 位 列 机 制 ， 减 少 排 序 时 的 搜索 时 间 ， 同 样 不 是 很 稳定 。 

与 早期 的 排序 算法 相 比 (如 冒 泡 算法 )， 这些 算法 将 排序 算法 提 上 了 一 个 大 台阶 。 
也 多 亏 了 这 些 算法 ， 才 有 今天 的 数据 发 据 、 人 工 智能 、 链 接 分 析 ， 以 及 大 部 分 网 页 计 
算 工具 。 各 种 排序 算法 的 性 能 对 比分 析 如 表 1-1 所 示 。 


表 1-1 排序 算法 性 能 对 比 
时 间 复杂 度 
平均 
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2. 傅 里 叶 变换 和 快速 人 埔里 叶 变换 

这 两 种 算法 简单 ， 但 却 相当 强大 ， 整 个 数字 世界 都 离 不 开 它们 ， 其 功能 是 实现 时 
间 域 函数 与 频率 域 函数 之 间 的 相互 转化 。 傅 里 时 变换 不 仅仅 是 一 个 数学 工具 ， 更 是 一 
种 新 的 思维 模式 。 





“ah 
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互联 网 、Wi-Fi、 智 能 机 、 座 机 、 计 算 机 、 路 由 器 、 卫 星 等 几乎 所 有 与 计算 机 相 
关 的 设备 都 或 多 或 少 与 这 两 种 算法 有 关 。 不 会 这 两 种 算法 ， 你 根本 不 可 能 拿 到 电子 、 
计算 机 或 者 通信 工程 学 位 。 能 看 到 这 本 书 ， 也 是 托 这 些 算法 的 福 。 

3. 迪 杰 斯 特 拉 算 法 (Dijkstra's Algorithm ) 

可 以 这 样 说 ， 如 果 没 有 这 种 算法 ， 互 联网 肯定 没有 现在 的 高 效率 。 只 要 能 以 “图 ” 
模型 表示 的 问题 ， 都 能 用 这 个 算法 找到 “图 ”中 两 个 结 点 间 的 最 短 距 离 。 

虽然 如 今 有 很 多 更 好 的 方法 来 解决 最 短路 径 问 题 ， 但 迪 杰 斯 特 拉 算法 的 稳定 性 仍 
无 法 被 取代 。 

4.RSA 非 对 称 加 密 算 法 

毫 不 夸张 地 说 ， 如 果 没有 这 种 算法 对 密 钥 学 和 网 络 安全 的 贡献 ， 如 今 互联 网 的 地 
位 可 能 就 不 会 如 此 之 高 。 现 在 的 网 络 毫 无 安全 感 ， 但 遇 到 与 钱 相关 的 问题 时 我 们 必须 
保证 有 足够 的 安全 感 ， 如 果 觉 得 网 络 不 安全 ， 你 肯定 不 会 傻乎乎 地 在 网 页 上 输入 自己 
的 银行 卡 信息 。 

RSA 算法 (以 发 明 者 的 名 字 命 名 : Ron Rivest, Adi Shamir 和 Leonard Adleman, 
如 图 1-2 Pras) 是 密 钥 学 领域 最 厉害 的 算法 之 一 ， 由 了 RSA 公司 的 三 位 创始 人 提出 ， 
是 当今 密 钥 研究 领域 的 基石 算法 。 用 这 种 算法 解决 的 问题 简单 又 复杂 ， 在 保证 安全 的 
情况 下 ， 可 在 独立 平台 和 用 户 之 间 分 享 密 钥 。 

5. 哈 希 安全 算法 ( Secure Hash Algorithm ) 

确切 地 说 ， 这 不 是 一 种 算法 ， 而 是 一 组 加 密 哈 希 函数 ， 由 美国 国家 标准 技术 研究 
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所 率先 提出 。 无 论 在 你 的 应 用 商店 、 电 子 邮 件 、 杀 毒 软 件 ， 还 是 浏览 器 等 ， 都 可 使 用 
这 种 算法 来 保证 正常 下 载 ， 避 免 被 “中 间 人 攻击 ”或 者 “网 络 钓鱼 ”。 





图 1-2 RSA 算法 发 明 者 


6. 整数 质 因子 分 解 算法 ( Integer Factorization ) 

这 其 实 是 一 种 数学 算法 ， 不 过 已 经 广泛 应 用 于 计算 机 领域 。 如 果 没 有 这 种 算法 ， 
加 密 信息 也 不 会 如 此 安全 。 通 过 一 系列 步骤 ， 它 可 以 将 一 个 合成 数 分 解 成 不 可 再 分 的 
数 因子 。 目 前 ， 很 多 加 密 协 议 都 采用 这 个 算法 ， 比 如 上 面 提 到 的 RSA 算法 。 

7. 链接 分 析 算 法 (Link Analysis ) 

在 互联 网 时 代 , 对 不 同 网 络 入 口 间 关 系 的 分 析 尤 其 重要 。 从 搜索 引擎 和 社交 网 站 ， 
到 市 场 分 析 工 具 ， 都 在 全 力 地 挖掘 互联 网 的 真正 构造 。 链 接 分 析 算 法 一 直 是 这 个 领域 
最 让 人 费解 的 算法 之 一 ， 虽 然 实现 方式 各 有 不 同 ， 而 且 其 本 身 的 特性 让 每 种 实现 方式 
的 算法 发 生 各 种 异化 ， 不 过 基本 原理 却 很 类 似 。 链 接 分 析 算 法 的 原理 其 实 很 简单 : 用 
和 矩阵 表示 一 幅 “ 图 ”， 形 成 本 征 值 问 题 ， 如 图 1-3 所 示 。 本 征 值 问题 可 以 帮助 你 分 析 
这 个 “图 ”的 基础 结构 ， 以 及 每 个 结 点 的 权重 。 这 个 算法 于 1976 年 由 宾 斯 基 (Gabriel 
Pinski) 和 纳 林 (Francis Narin) 提出。 

谁 会 用 这 个 算法 呢 ? Google HARHA, Facebook 向 你 发 送信 息 流 时 〈 所 以 信 
息 流 不 是 算法 ， 而 是 算法 的 结果 ) , Google+ 和 Facebook 的 好 友 推 荐 功能 ，Linkedm 
的 工作 推荐 , Youtube 的 视频 推荐 , 等 等 。 普遍 认为 Google 是 率先 使 用 这 类 算法 的 机 构 ， 
不 过 其 实 早 在 1996 Æ (Google 问世 前 2 年 ) 李彦宏 创建 的 “RankDex” 小 型 搜索 引 
擎 就 使 用 了 这 个 思路 。 而 Hyper Search 搜索 算法 建立 者 马 西 莫 。 马 奇 奥 里 也 曾 使 用 过 
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类 似 的 算法 。 这 两 个 人 后 来 分 别 成 了 百度 和 Google 历史 上 的 传奇 人 物 。 





图 1-3 链接 分 析 算 法 


8. 比例 微 积 分 算法 ( Proportional Integral Derivative Algorithm ) 

飞机 、 汽 车 、 电 视 、 手 机 、 卫 星 、 工 厂 和 机 器 人 等 事物 中 都 有 这 个 算法 的 身影 。 简 
单 来 讲 ， 这 个 算法 主要 是 通过 “控制 回路 反馈 机 制 ”， 减 小 预 设 输出 信号 与 真实 输出 信 
号 间 的 误差 。 只 要 需要 信号 处 理 或 电子 系统 来 控制 自动 化 机 械 、 液 压 和 加 热 系统 ， 都 需 
要 用 到 这 个 算法 。 可 以 说 , 没有 它 , 就 没有 现代 文明 。 比 例 微 积分 算法 流程 如 图 14 所 示 。 
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9. 数据 压缩 算法 

数据 压缩 算法 有 很 多 种 ， 哪 种 最 好 ? 这 取决 于 应 用 方向 。 压 缩 MP3、JPEG 和 
MPEG-2 文件 都 是 不 一 样 的 。 但 哪里 能 见 到 数据 压缩 ? 它 可 不 仅仅 是 文件 夹 中 的 压缩 
文件 。 要 知道 ， 你 正在 看 的 计算 机 网 页 就 是 使 用 数据 压缩 算法 将 信息 下 载 到 你 的 电脑 
上 的 。 除 文字 外 、 游 戏 、 视 频 、 音 乐 、 数 据 存储 、 云 计算 等 都 是 。 它 让 各 种 系统 更 轻松 ， 
效率 更 高 。 

10. 随机 数 生成 算法 

到 如 今 ， 计 算 机 还 没有 办 法 生成 “真正 的 ”随机 数 ， 但 伪 随 机 数 生成 算法 就 已 足 
够 满足 当前 需求 。 这 些 算 法 在 许多 领域 都 有 应 用 ， 如 网 络 连接 、 加 密 技 术 、 安 全 哈 希 
算法 、 网 络 游戏 、 人 工 智 能 ， 以 及 数据 挖掘 等 问题 分 析 中 的 条 件 初始 化 。 
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数据 挖掘 的 飞速 发 展 ， 不 仅 产生 了 大 量 不 同类 型 的 数据 挖掘 算法 ， 而 且 也 表 
现 出 与 机 器 学 习 等 学 科 深度 融合 的 态势 。 国 际 权 威 的 学 术 组 织 the IEEE International 
Conference on Data Mining (ICDM) 2006 年 12 月 评 出 了 数据 挖掘 领域 的 十 大 经 
典 算法 : C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、Naive 
Bayes 和 CART， 它 们 在 数据 挖掘 领域 都 产生 了 极为 深远 的 影响 。 

1.C4.5 算法 

C4.5 是 一 种 用 在 机 器 学 习 和 数据 挖掘 领域 的 分 类 问题 中 的 算法 。 它 基于 以 下 假 
设 : 给 定 一 个 数据 集 ， 其 中 的 每 一 个 元 组 都 能 用 一 组 属性 值 来 描述 ， 每 一 个 元 组 属于 
一 个 互 斥 的 类 别 中 的 某 一 类 。C4.5 的 目标 是 通过 学 习 ， 找 到 一 个 从 属性 值 到 类 别 的 
映射 关系 ， 并 且 这 个 映射 能 用 于 对 新 的 类 别 未 知 的 实体 进行 分 类 。 

C4.5 是 由 JRoss Quinlan 在 ID3 的 基础 上 提出 的 。ID3 算法 用 来 构造 决策 树 。 决 
策 树 是 一 种 类 似 流 程 图 的 树 结构 ， 其 中 每 个 内 部 结 点 〈 非 树叶 结 点 ) 表示 在 一 个 属性 
上 的 测试 ， 每 个 分 枝 代表 一 个 测试 输出 ， 而 每 个 树叶 结 点 存放 一 个 类 标号 。 一 旦 建立 
好 了 决策 树 ， 对 于 一 个 未 给 定 类 标号 的 元 组 ， 跟 踪 一 条 由 根 结 点 到 叶 结 点 的 路 径 ， 该 
叶 结 点 就 存放 着 该 元 组 的 预测 。 决 策 树 的 优势 在 于 不 需要 任何 领域 知识 或 参数 设置 ， 
适合 于 探测 性 的 知识 发 现 。 

C4.5 算法 的 核心 算法 是 ID3 算法 。C4.5 算法 继承 了 ID3 算法 的 优点 ， 并 在 以 下 
JLA MIX ID3 算法 进行 了 改进 : 

(1) 用 信息 增益 率 来 选择 属性 ， 克 服 了 用 信息 增益 选择 属性 时 偏向 选择 取 值 多 
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的 属性 不 足 ; 
(2) 在 决策 树 构造 过 程 中 进行 剪 枝 ; 
(3) 能 够 完成 对 连续 属性 的 离散 化 处 理 ; 
(4) 能 够 对 不 完整 数据 进行 处 理 。 

而 且 C4.5 算法 产生 的 分 类 规则 易于 理解 ， 准 确 率 较 高 。 但 在 构造 树 的 过 程 中 ， 
需要 对 数据 集 进行 多 次 的 顺序 扫描 和 排序 ， 因 而 导致 算法 的 低 效 。 

2. The K-Means Algorithm (K-Means 算法 ) 

K-MeansA gorithm 是 一 种 聚 类 算法 , 它 把 n PISA ATE A k Soa, 
k<n。 它 与 处 理 混合 正 态 分 布 的 最 大 期 望 算法 很 相似 ， 因 为 他 们 都 试图 找到 数据 中 自 
然 聚 类 的 中 心 。 它 假设 对 象 属性 来 自 空 间 向 量 ， 并 且 目 标 是 使 各 个 群 组 内 部 的 均 方 误 
差 总 和 最 小 。 它 是 一 种 无 监督 学 习 的 算法 。 

3. Support Vector Machines ( 支持 向 量 机 ) 

支持 向 量 机 ， 英 文 为 Support Vector Machine， 简 称 SV 机 或 SVM。 它 是 一 种 监 
督 式 学 习 方 法 ， 广 泛 应 用 于 统计 分 类 以 及 回归 分 析 中 。 支 持 向 量 机 将 向 量 映射 到 一 个 
更 高 维 的 空间 里 ， 在 这 个 空间 里 建立 一 个 有 最 大 间隔 的 超 平 面 。 在 分 开 数据 的 超 平面 
的 两 边 建 有 两 个 互相 平行 的 超 平面 。 分 隔 超 平面 使 两 个 平行 超 平面 的 距离 最 大 化 。 假 
定 平行 超 平面 间 的 距离 或 差距 越 大 ， 分 类 器 的 总 误差 越 小 。 一 个 极 好 的 指南 是 C.J.C 
Burges 的 《模式 识别 支持 向 量 机 指南 》。Van Der Walt 和 Bamard 将 支持 向 量 机 和 其 
他 分 类 器 进行 了 比较 。 

4. The Apriori Algorithm ( Apriori 算法 ) 

Apriori 算法 是 一 种 最 有 影响 力 的 挖掘 布尔 关联 规则 频繁 项 集 的 算法 。 其 核心 是 
基于 两 阶段 频 集 思 想 的 递 推算 法 。 该 关联 规则 在 分 类 上 属于 单 维 、 单 层 、 布 尔 关联 规 
则 。 在 这 里 ， 所 有 支持 度 大 于 最 小 支持 度 的 项 集 称 为 频繁 项 集 ， 简 称 频 集 。 在 频 集 的 
基础 上 ， 所 有 置信 度 大 于 最 小 置信 度 的 规则 为 强 关 联 规则 。 

5. 最 大 期 望 (EM ) 算法 

在 统计 计算 中 ， 最 大 期 望 (Expectation Maximization，EM) 算法 是 在 概率 

(Probabilistic) 模型 中 寻找 参数 最 大 似 然 估 计 的 算法 ， 其 中 概率 模型 依赖 于 无 法 观 
测 的 隐藏 变量 (Latent Variabl) 。 最 大 期 望 经 常用 在 机 器 学 习 和 计算 机 视觉 的 数据 集 
3€ (Data Clustering) 领域 。 

6. PageRank 算法 

PageRank # Google 算法 的 重要 内 容 。2001 年 9 月 被 授予 美国 专利 ， 专 利 人 是 
Google 创始 人 之 一 拉 里 。 佩 奇 (Larry Page) o AIE, PageRank 里 的 Page 不 是 指 网 页 ， 
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而 是 指 佩 奇 ， 即 这 个 等 级 方法 是 以 佩 奇 来 命名 的 。 

PageRank 根据 网 站 的 外 部 链接 和 内 部 链接 的 数量 和 质量 来 衡量 网 站 的 价值 。 
PageRank 背后 的 概念 是 , 每 个 到 页 面 的 链接 都 是 对 该 页 面 的 一 次 投票 , 被 链接 得 越 多 ， 
就 意味 着 被 其 他 网 站 投票 越 多 。 这 个 就 是 所 谓 的 “链接 流行 度 ” 衡量 有 多 少 人 愿 
意 将 他 们 的 网 站 和 你 的 网 站 挂钩 。PageRank 这 个 概念 引 自 学 术 中 一 篇 论文 的 被 引述 
的 频 度 一 一 即 被 别人 引述 的 次 数 越 多 ， 一 般 就 判断 这 篇 论文 的 权威 性 越 高 。 

7. AdaBoost 增强 型 算法 

AdaBoost 是 一 种 迭代 算法 ， 其 核心 思想 是 针对 同一 个 训练 集训 练 不 同 的 分 类 器 
(〈 弱 分 类 器 ), 然后 把 这 些 弱 分 类 器 集合 起 来 , 构成 一 个 更 强 的 最 终 分 类 器 ( 强 分 类 器 ) 。 
其 算法 本 身 是 通过 改变 数据 分 布 来 实现 的 ， 它 根据 每 次 训练 集 之 中 每 个 样本 的 分 类 是 
和 否 正确 ， 以 及 上 次 的 总 体 分 类 的 准确 率 ， 来 确定 每 个 样本 的 权 值 。 将 修改 过 权 值 的 新 
数据 集 送 给 下 层 分 类 器 进行 训练 ， 最 后 将 每 次 训练 得 到 的 分 类 器 融合 起 来 ， 作 为 最 终 
决策 分 类 器 。 

8. KNN: K-Nearest Neighbor Classification ( K 最 近邻 算法 ) 

K ERR (K-Nearest Neighbor, KNN) 分 类 算法 ， 是 一 个 理论 上 比较 成 熟 的 方法 ， 
也 是 最 简单 的 机 器 学 习 算 法 之 一 。 该 方法 的 思路 是 : 如 果 一 个 样本 在 特征 空间 中 的 大 
个 最 相似 《〈 即 特征 空间 中 最 邻近 ) 的 样本 中 的 大 多 数 属于 某 一 个 类 别 ， 则 该 样本 也 属 
于 这 个 类 别 。 

9. Naive Bayes 算法 (朴素 贝 叶 斯 ) 

在 众多 的 分 类 模型 中 ， 应 用 最 为 广泛 的 两 种 分 类 模型 是 决策 树 模型 (Decision 
Tree Model) 和 朴素 贝 叶 斯 模型 (Naive Bayesian Model, NBM) 。 朴 素 贝 叶 斯 模型 
发 源 于 古典 数学 理论 ， 有 着 坚实 的 数学 基础 ， 以 及 稳定 的 分 类 效率 。 同 时 ，NBM 模型 
所 需 估 计 的 参数 很 少 ， 对 缺失 数据 不 太 敏 感 ， 算 法 也 比较 简单 。 理 论 上 ，NBM 模型 与 
其 他 分 类 方法 相 比 具 有 最 小 的 误差 率 。 但 实际 上 也 并 非 总 是 如 此 ， 因 为 NBM 模型 假 
设 属性 之 间 相互 独立 ， 这 个 假设 在 实际 应 用 中 往往 是 不 成 立 的 ， 这 给 NBM 模型 的 正 
确 分 类 带 来 了 一 定 影响 。 在 属性 个 数 比 较 多 或 者 属性 之 间 相 关 性 较 大 时 ，NBM 模型 的 
分 类 效率 比 不 上 决策 树 模 型 。 而 在 属性 相关 性 较 小 时 ，NBM 模型 的 性 能 最 为 良好 。 

10. CART: 分 类 与 回归 树 

CART, Classification and Regression Trees。 在 分 类 树 下 面 有 两 个 关键 的 思想 : 第 
一 个 是 关于 递归 地 划分 自 变量 空间 的 想法 ， 第 二 个 想法 是 用 验证 数据 进行 剪 枝 。 最 先 
由 Breiman 等 提出 。 分 类 回归 树 是 一 棵 二 又 树 ， 且 每 个 非 叶子 结 点 都 有 两 个 孩子 ， 所 
以 对 于 第 一 棵 子 树 的 叶子 结 点 数 比 非 叶 子 结 点 数 多 1. CART 树 既 可 以 做 分 类 算法 ， 
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也 可 以 做 回归 。 其 优势 是 可 以 生成 易于 理解 的 规则 ， 时 间 复 杂 度 较 低 ， 可 以 处 理 连续 
变量 和 种 类 字段 ， 可 以 明确 显示 数据 字段 的 重要 性 。 不 足 是 对 连续 性 的 字段 比较 难 预 
测 ， 对 有 时 间 顺 序 的 数据 ， 需 要 较为 复杂 的 预 处 理工 作 ; 当 类 别 太 多 时 ， 错 误 可 能 增 
加 得 比较 快 。 


1.1.5 最近 十 年 的 发 展 与 应 用 


作为 一 个 新 兴 的 研究 领域 ， 自 20 世纪 80 年 代 开 始 ， 数 据 挖掘 已 经 取得 显著 进展 
并 且 涵盖 了 广泛 的 应 用 领域 ， 但 仍然 存在 许多 问题 和 挑战 。 本 节 将 介绍 近 十 年 来 数据 
挖掘 算法 的 主要 发 展 、 改 进 和 应 用 。 

1. 数据 挖 气 算 法 的 改进 

下 面 以 K-Means 算法 和 KNN 算法 为 例 进行 介绍 

K-Means 算法 是 数据 挖掘 聚 类 领域 中 的 重要 算法 。 大 体 上 说 ，K-Means 算法 的 工 
作 过 程 说 明 如 下 : 首先 从 n 个 数据 对 象 任意 选择 k 个 对 象 作为 初始 聚 类 中 心 ， 而 对 于 
剩 下 的 其 他 对 象 ， 则 根据 它们 与 这 些 聚 类 中 心 的 相似 度 〈 距 离 》， 分 别 将 它们 分 配给 
与 其 最 相似 的 〈 聚 类 中 心 所 代表 的 ) RR: 然后 再 计算 每 个 所 获 新 聚 类 的 聚 类 中 心 
〈 该 聚 类 中 所 有 对 象 的 均值 ) ， 不 断 重复 这 一 过 程 直 到 标准 测度 函数 开始 收敛 为 止 。 
K-Means 算法 中 急需 解决 的 问题 包括 如 下 内 容 。 

(1) 在 KK-Means 算法 中 , 大 是 事先 给 定 的 ， 但 这 个 大 值 的 选 定 是 很 难 估计 的 。 
很 多 时 候 ， 我 们 事先 并 不 知道 给 定 的 数据 集 应 分 成 多 少 类 最 合适 ， 这 也 是 K-Means 
算法 的 一 个 不 足 。 

(2) K-Means 算法 属于 无 监督 算法 ， 这 就 容易 陷入 局 部 极 小 值 从 而 无 法 获取 全 
局 最 优 解 ， 在 大 矢量 空间 搜索 中 性 能 下 降 。 

除 此 之 外 ，K-Means 算法 对 孤立 和 异常 数据 敏感 ， 容 易 导致 中 心 偏 移 ， 而 且 对 非 
球形 簇 可 能 会 失效 。 针 对 以 上 缺点 ， 近 些 年 数据 挖 扬 领 域 的 研究 人 员 进 行 许多 改进 。 
有 的 算法 是 通过 类 的 自动 合并 和 分 裂 ， 得 到 较为 合理 的 类 型 数目 k Plin, ISODALA 
算法 。 关 于 KK-Means 算法 中 聚 类 数目 大 值 的 确定 ， 有 些 根据 方差 分 析 理 论 ， 应 用 混 
合 下 统计 量 来 确定 最 佳 分 类 数 ， 并 应 用 了 模糊 划分 雯 来 验证 最 佳 分 类 数 的 正确 性 。 
除 此 之 外 ， 还 有 谱 聚 类 、 基 于 模糊 特征 选择 等 。 

传统 的 KNN 算法 有 两 大 不 足 : 一 是 计算 开销 大 ， 分 类 效率 低 ; 二 是 等 同 对 待 各 
个 特征 项 和 样本 ， 影 响 分 类 准确 度 。 针 对 第 一 种 不 足 大 体 有 三 种 改进 办 法 ， 分 别 是 : 
基于 特征 降 维 的 改进 ， 基 于 训练 集 的 改进 ， 基 于 近邻 搜索 方法 的 改进 。 针 对 第 二 种 不 
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足 ， 大 体 有 两 种 改进 策略 分 别 为 : 基于 特征 加 权 的 改进 和 基于 判别 策略 的 改进 。 特 
征 降 维 可 以 采用 信息 增益 、 卡 方 值 、 互 信息 等 标准 筛选 特征 ， 还 可 以 采用 主 成 分 分 析 
或 小 波 变换 的 办 法 降低 特征 值 的 维度 。 对 训练 集 改 进 时 主要 是 对 训练 集 进行 前 裁 。 一 
种 思想 认为 训练 集中 靠近 各 类 别 中 心 的 样本 对 分 类 的 意义 不 大 ， 仅 保留 各 类 别 边界 样 
本 。 另 一 种 思想 与 决策 树 结合 使 用 ， 生 成 的 决策 树 对 自身 进行 检测 ， 除 去 判 对 概率 小 
F 0.5 的 样本 ， 压 缩 后 的 样本 集 再 用 于 做 KNN。 还 可 以 基于 分 类 器 结果 、 相 似 性 、 
距离 对 样本 进行 加 权 。 

2. 数据 挖 握 算法 的 应 用 

数据 挖掘 算法 可 以 挖掘 出 很 多 意 想不到 的 规律 ， 不 仅 有 助 于 推进 很 多 理论 技术 的 
发 展 ， 还 可 以 帮助 商家 赚 取 利润 。 

数据 挖掘 应 用 中 ， 有 一 个 很 经 典 的 “啤酒 + 尿布 ”案例 。 某 著名 超市 在 对 消费 
者 购物 行为 进行 关联 分 析 时 发 现 ， 男 性 顾客 在 购买 婴儿 尿 片 时 ， 常 常会 顺便 搭配 几 瓶 
啤酒 来 往 劳 自己 ， 于 是 尝试 推出 了 将 啤酒 和 尿布 摆 在 一 起 的 促销 手段 。 没 想到 这 个 举 
措 居然 使 尿布 和 啤酒 的 销量 都 大 幅 增 加 了 。 

2009 年 ，Google 通过 分 析 5000 万 条 美国 人 最 频繁 检索 的 词语 ， 将 之 和 美国 疾病 中 
心 在 2003 年 到 2008 年 间 季节 性 流感 传播 时 期 的 数据 进行 比较 ， 并 建立 一 个 特定 的 数学 
模型 。 最 终 Google 成 功 预测 了 2009 冬季 流感 的 传播 甚至 可 以 具体 到 特定 的 地 区 和 州 。 

数据 挖掘 的 结果 还 曾 让 英国 撤军 。2010 年 10 月 23 日 《 卫 报 》 利 用 维基 解密 的 
数据 做 了 一 篇 “数据 新 闻 ”。 将 伊拉克 战争 中 所 有 的 人 员 伤亡 情况 均 标 注 于 地 图 之 上 。 
地 图 上 一 个 红 点 便 代表 一 次 死伤 事件 ， 鼠 标 单 击 红 点 后 弹出 的 窗口 则 有 详细 的 说 明 
伤亡 人 数 、 时 间 ， 造 成 伤亡 的 具体 原因 。 密 布 的 红 点 多 达 39 万 ， 显 得 格外 触目 惊 心 。 
一 经 刊 出 立即 引起 英国 朝野 震动 ， 推 动 英国 最 终 做 出 撤 出 驻 伊拉克 军队 的 决定 。 

数据 挖掘 对 医学 领域 的 影响 也 十 分 重要 。 举 一 个 比较 著名 的 人 物 一 一 乔布斯 。 乔 
布 斯 是 世界 上 第 一 个 对 自身 所 有 DNA 和 肿瘤 DNA 进行 排序 的 人 。 为 此 ， 他 支付 了 
高 达 几 十 万 美元 的 费用 。 他 得 到 的 不 是 样本 ， 而 是 包括 整个 基因 的 数据 文档 。 医 生 按 
照 所 有 基因 按 需 下 药 ， 最 终 这 种 方式 帮助 乔布斯 延长 了 好 几 年 的 生命 。 

另外 ， 当 前 的 互联 网 金融 与 电子 商务 领域 ， 数 据 挖掘 的 身影 也 频繁 出 现 。 如 ， 支 
付 中 的 交易 欺诈 侦 测 ， 采 用 支付 宝 支付 时 ， 或 者 刷 信用 卡 支付 时 ， 系 统 会 实时 判断 这 
笔 刷卡 行为 是 否 属于 盗 刷 。 通 过 刷卡 的 时 间 、 地 点 、 商 户 名 称 、 金 额 、 频 率 等 要 素 进 
行 判断 。 这 里 面 基本 的 原理 就 是 寻找 异常 值 。 如 果 您 的 刷卡 被 判定 为 异常 ， 这 笔 交易 
可 能 会 被 终止 。 异 常 值 的 判断 ， 应 该 是 基于 一 个 欺诈 规则 库 的 。 可 能 包含 两 类 规则 ， 
即 事件 类 规则 和 模型 类 规则 。 第 一 ， 事 件 类 规则 ， 例 如 刷卡 的 时 间 是 否 异 常 〈 凌 晨 刷 
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卡 ) 、 刷 卡 的 地 点 是 否 异 常 〈 非 经 常 所 在 地 刷卡 ) 、 刷 卡 的 商户 是 否 异常 (被 列 入 黑 
名 单 的 套现 商户 ) 、 刷 卡 金额 是 否 异 常 〈 是 否 偏离 正常 均值 的 三 倍 标准 差 ) 、 刷 卡 频 
次 是 否 异 常 〈 高 频密 集 刷卡 ) 。 第 二 ， 模 型 类 规则 ， 则 是 通过 算法 判定 交易 是 否 属于 
欺诈 。 一 般 通 过 支付 数据 、 卖家 数据 ` 结算 数据 , 构建 模型 进行 分 类 问题 的 判断 。 比如， 
电 商 “ 猜 你 喜欢 ”和 “推荐 引擎 ”。 电 商 中 的 “ 猜 你 喜欢 ”， 应 该 是 大 家 最 为 熟悉 的 。 
在 京东 商城 或 者 亚马逊 购物 ， 总 会 有 “ 猜 你 喜欢 ”“ 根 据 您 的 浏览 历史 记录 精心 为 您 
推荐 ” “购买 此 商品 的 顾客 同时 也 购买 了 ** 商品 ”“ 浏 览 了 该 商品 的 顾客 最 终 购买 
了 兰 商 品 ”， 这 些 都 是 推荐 引擎 运算 的 结果 。 这 里 面 ， 有 些 人 确实 很 喜欢 亚马逊 的 
推荐 ， 通 过 “购买 该 商品 的 人 同时 购买 了 ** 商品 ”， 常 常会 发 现 一些 质 量 比较 高 、 
较为 受 认 可 的 书 。 一 般 来 说 ， 电 商 的 “ 猜 你 喜欢 ”《〈 即 推荐 引擎 ) 都 是 在 协同 过 滤 算 
¥% (Collaborative Filter) 的 基础 上 ， 搭 建 一 套 符合 自身 特点 的 规则 库 。 即 该 算法 会 同 
时 考虑 其 他 顾客 的 选择 和 行为 ， 在 此 基础 上 搭建 产品 相似 性 矩阵 和 用 户 相似 性 矩阵 ， 
找 出 最 相似 的 顾客 或 最 关联 的 产品 ， 从 而 完成 产品 的 推荐 。 

电信 中 的 种 子 客户 和 社会 网 络 。 即 ， 通 过 人 们 的 通话 记录 ， 就 可 以 勾勒 出 和 人们 的 
关系 网 络 。 电 信和 领域 的 网 络 ， 一般 会 分 析 客 户 的 影响 力 和 客户 流失 、 产 品 扩散 的 关系 。 
基于 通话 记录 ， 可 以 构建 客户 影响 力 指 标 体 系 。 采 用 的 指标 ， 大 概 包 括 : 一 度 人 脉 、 
二 度 人 脉 、 三 度 人 脉 、 平 均 通话 频次 、 平 均 通话 量 等 。 基 于 社会 影响 力 ， 分 析 的 结果 
表明 ， 高 影响 力 客户 的 流失 会 导致 关联 客户 的 流失 。 在 产品 的 扩散 上 ， 选 择 高 影响 力 
客户 作为 传播 的 起 点 ， 很 容易 推动 新 套餐 的 扩散 和 渗透 。 


数据 挖掘 的 主要 意义 在 于 〈 包 括 但 不 限于 ) : 

(1) 充分 挖掘 、 利 用 了 数据 的 全 部 或 尽量 多 的 价值 。 

(2) 从 数据 中 获取 的 信息 比 别人 更 全 面 、 更 快 、 更 准确 。 
(3) 从 信息 中 获取 的 知识 比 别人 更 丰富 、 更 准确 、 更 及 时 。 
(4) 帮助 企业 实时 掌握 市 场 变化 、 经 营 的 变化 。 

(5) 帮助 企业 较为 正确 地 预 判 未 来 的 发 展 趋势 。 

(6) 帮助 企业 做 出 较为 正确 的 判断 和 决策 。 
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1.2.1 数据 挖掘 的 任务 


通常 ， 数 据 挖掘 的 任务 分 为 下 面 两 大 类 。 

(1) 预测 任务 。 这 些 任 务 的 目标 是 根据 其 他 的 属性 的 值 ， 预 测 特定 属性 的 值 。 被 
预测 的 属性 一 般 称 目 标 变量 (Target Variable) 或 因 变量 (Dependent Variable) ， 而 用 来 
做 预测 的 属性 称 说 明 变 量 (Explanatory Variable) 或 自 变量 (Independent Variable) 。 

预测 建 模 (Predictive Modeling) 涉及 以 说 明 变量 函数 的 方式 为 目标 变量 建立 模 
型 。 有 两 大 类 预测 建 模 任务 : 分 类 (Classification) ， 用 于 预测 离散 的 目标 变量 ， 回 
归 (Regression) ， 用 于 预测 连续 的 目标 变量 。 例 如 ， 预 测 一 个 移动 用 户 是 否 会 更 换 
4G 手机 是 分 类 任务 ， 因 为 该 目标 变量 是 二 值 的 ， 而 预测 某 客户 的 每 月 DOU (Dataflow 
of Usage, 每 用 户 上 网 流量 ) 则 是 回归 任务 , 因为 每 月 上 网 流量 DOU 具有 连续 值 属性 。 
两 项 任务 的 目标 都 是 训练 一 个 模型 ， 使 目标 变量 预测 值 与 实际 值 之 间 的 误差 最 小 。 预 
测 建 模 可 以 用 来 确定 顾客 对 产品 促销 活动 的 反应 ， 预 测 地 球 生态 系统 的 扰动 ， 或 根据 
检查 结果 判断 病人 是 否 患 有 某 种 疾病 。 








[611] 预测 客户 的 信用 等 级 

考虑 如 下 任务 : 根据 客户 的 特征 预测 客户 的 信用 等 级 。 本 例假 设 客户 可 以 分 为 三 
级 : 一 星 级 、 二 星 级 、 三 星 级 。 并 根据 信用 等 级 将 客户 分 为 三 类 。 为 进行 这 一 任务 ， 
我 们 需要 一 个 数据 集 ， 包 含 这 三 类 客户 的 特性 。 本 例 提 供 通用 测试 数据 集合 ， 除 客户 
的 信用 等 级 之 外 ， 该 数据 集 还 包括 客户 当月 ARPU、 客 户 当 月 DOU、 客 户 当 月 MOU 
和 网 龄 等 其 他 属性 。 ( 通用 测试 数据 集 和 它 的 属性 将 在 本 书 3.1 节 进 一 步 介绍 。 ) 网 
龄 分 成 低 等 、 中 等 、 高 等 三 类 ， 分 别 对 应 区 间 [0，80) [80, 170) 、[170, +œ), 
客户 当月 ARPU 也 分 成 低 等 、 中 等 、 高 等 三 类 ， 分 别 对 应 区 间 [0，124.9 ) [1249, 
1045.7 ) 、[1045.7, + ce ) 。 根据 网 龄 和 客户 当月 ARPU 的 这 些 类 别 , 可 以 推出 如 下 规则 : 

© 网 龄 和 客户 当月 ARPU 均 为 低 时 ， 客 户 信用 等 级 预测 为 一 星 级 。 

© 网 龄 和 客户 当月 ARPU 均 为 中 时 ， 客 户 信用 等 级 预测 为 二 星 级 。 

© 网 龄 和 客户 当月 ARPU 均 为 高 时 ， 客 户 信用 等 级 预测 为 三 星 级 。 





尽管 这 些 规则 不 能 对 所 有 的 客户 进行 分 类 ， 但 已 经 可 以 对 大 多 数 客户 进行 很 好 的 
分 类 尽管 不 完善 )。 

(2) 描述 任务 。 其 目标 是 导出 概括 数据 中 潜在 联系 的 模式 〈 相 关 、 趋 势 、 聚 类 、 
轨迹 和 异常 ) 。 本 质 上 描述 性 数据 挖掘 任务 通常 是 探查 性 的 ， 并 且 常 常 需要 后 处 理 技 








第 1 章 大 数据 、 数 据 挖掘 与 智慧 运营 综述 


术 验 证 和 解释 结果 。 

FAA (Cluster Analysis) 旨 在 发 现 紧密 相关 的 观测 值 组 群 ， 使 得 与 属于 不 同 
篮 的 观测 值 相 比 ， 属 于 同一 侯 的 观测 值 相互 之 间 尽 可 能 类 似 。 聚 类 可 用 来 对 相关 的 顾 
客 分 组 、 找 出 显著 影响 地 球 气候 的 海洋 区 域 以 及 压缩 数据 等 。 

关联 分 析 通 常用 蕴含 规则 或 特征 子 集 的 形式 表示 。 由 于 搜索 空间 是 指数 规模 的 ， 
关联 分 析 的 目标 是 以 有 效 的 方式 提取 最 有 趣 的 模式 。 关 联 分 析 的 应 用 包括 找 出 具有 相 
关 功 能 的 基因 组 、 识 别 用 户 一 起 访问 的 Web 页 面 、 理 解 地 球 气候 系统 不 同 元 素 之 间 
的 联系 等。 








[ (9) 1.2] 购物 得分 析 
表 1-2 给 出 的 事务 是 在 一 家 杂货 店 收银 台 的 销售 数据 。 关 联 分 析 可 以 用 来 发 现 顾 
客 经 常 同时 购买 的 商品 。 例 如 ， 我 们 可 能 发 现 规则 { 尿布 } 一 { 牛奶 }。 该 规则 暗示 
购买 尿布 的 顾客 多 半 会 购买 牛奶 。 这 种 类 型 的 规则 可 以 用 来 发 现 各 类 商品 中 可 能 存在 
的 交叉 销售 “ 买 尿 布 的 顾客 多 半 会 购买 牛奶 ”。 这 种 类 型 的 规则 可 以 用 来 发 现 各 类 商 
品 中 可 能 存在 的 交叉 销售 的 商机 。 


表 1-2 ”购物 篮 数据 


{面包 ， 黄油， 尿布， 牛奶 } 

{ 咖啡 ， 糖 ， 小 甜 饼 ， 链 鱼 } 

(HE, Seah, OE, DRAG, AAW, WEE} 
{ 面包 ， 黄 油 ， 链 鱼 ， 鸡 } 

{ 鸡蛋， 面包， 黄油 } 

{ 鲈鱼 ， 尿 布 ， 牛 奶 } 
{面包 茶 ， 糖 ， 鸡 蛋 } 
{咖啡 ， 糖 ， 鸡 ， 鸡 蛋 } 

{ 面包， 尿布， 牛奶 ， 盐 } 

(A, 鸡蛋， 小 甜 饼 ， 尿 布 ， 牛 奶 } 


1 
2 
3 
4 
$ 
6 
7 
8 
9 


5 














异常 检测 (Anomaly Detection) 的 任务 是 识别 其 特征 显著 不 同 于 其 他 数据 的 观测 
值 。 这 样 的 观测 值 称 为 异常 点 (Anomaly) 或 离 群 点 〈Outlier) 。 异 常 检 测算 法 的 目 
标 是 发 现 真正 的 异常 点 ， 而 避免 错误 地 将 正常 的 对 象 标注 为 异常 点 。 换 言 之 ， 一 个 好 
的 异常 检测 器 必须 具有 高 检测 率 和 低 误 报 率 。 异 常 检测 的 应 用 包括 检测 欺诈 、 网 络 攻 
击 、 疾 病 的 不 寻常 模式 、 生 态 系统 扰动 等 。 
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[61.3] 手机 多 费 预警 
运营 商 记录 每 位 客户 通信 记录 与 其 他 交易 ， 同 时 记录 信用 等 级 、 年 龄 和 地 址 等 个 
人 信息 。 由 于 与 正常 通信 相 比 ， 手 机 欠 费 行为 的 数目 相对 较 少 ， 因 此 欠 费 预警 技术 可 
以 用 来 构造 用 户 的 正常 通信 轮 廊 。 当 一 个 新 的 客户 到 达 时 就 与 之 比较 。 如 果 该 客户 的 
特性 与 先前 所 构造 的 轮 廊 很 不 相同 ， 就 把 该 客户 标记 为 潜在 欠 费 客户 。 





122 ”数据 挖掘 的 基本 步骤 


从 数据 本 身 来 考虑 ， 广 义 的 数据 挖掘 通常 包括 信息 收集 、 数 据 集成 、 数 据 规约 、 
数据 清理 、 数 据 变换 、 数 据 挖掘 实施 、 模 式 评估 和 知识 表示 8 个 步骤 ， 如 图 1-5 所 示 。 


解释 /评估 


HRR hi, 
ER = pa 


x : | 狭义 数据 挖 所 
| 已 预 处 理 | i 

























































































F vane 
图 1-5 数据 挖掘 基本 流程 与 步骤 

步骤 ! 一 一 信息 收集 : 根据 确定 的 数据 分 析 对 象 ， 抽 象 出 在 数据 分 析 中 所 需要 的 
特征 信息 ， 然 后 选择 合适 的 信息 收集 方法 ， 将 收集 到 的 信息 存 入 数据 库 。 对 于 海量 数 
据 ， 选 择 一 个 合适 的 数据 存储 和 管理 的 数据 仓库 是 至 关 重 要 的 。 

步骤 2 一 一 数据 集成 : 把 不 同 来 源 、 格 式 、 特 点 性 质 的 数据 在 逻辑 上 或 物理 上 有 
机 地 集中 ， 从 而 为 企业 提供 全 面 的 数据 共享 。 
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步骤 3 一 一 数据 规约 : 如 果 执 行 多 数 的 数据 挖掘 算法 ， 即 使 是 在 少量 数据 上 也 需 
要 很 长 的 时 间 ， 而 做 商业 运营 数据 挖掘 时 数据 量 往往 非常 大 。 数 据 规 约 技术 可 以 用 来 
得 到 数据 集 的 规约 表示 ， 它 小 得 多 ， 但 仍然 接近 于 保持 原 数据 的 完整 性 ， 并 且 规 约 后 
执行 数据 挖掘 结果 与 规约 前 执行 结果 相同 或 几乎 相同 。 

步骤 4 一 一 数据 清理 : 在 数据 库 中 的 数据 有 一 些 是 不 完整 的 《有 些 感 兴趣 的 属性 
缺少 属性 值 )、 含 噪声 的 (包含 错误 的 属性 值 )， 甚 至 是 不 一 致 的 (同样 的 信息 不 同 
的 表示 方式 ) ， 因 此 需要 进行 数据 清理 ， 将 完整 、 正 确 、 一 致 的 数据 信息 存 入 数据 仓 
库 中 。 不 然 ， 挖 据 的 结果 会 不 尽 如 人 意 。 

步骤 5 一 一 数据 变换 : 通过 平滑 聚集 、 数 据 概 化 、 规 范 化 等 方式 将 数据 转换 成 适 
用 于 数据 挖掘 的 形式 。 对 于 有 些 实数 型 数据 ， 通 过 概念 分 层 和 数据 的 离散 化 来 转换 数 
据 也 是 重要 的 一 步 。 

步骤 6 一 一 数据 挖掘 实施 过 程 : 根据 数据 仓库 中 的 数据 信息 ， 选 择 合适 的 分 析 工 
具 ， 应 用 统计 方法 、 事 例 推理 、 决 策 树 、 规 则 推理 、 模 糊 集 ， 甚 至 神经 网 络 、 遗 传 算 
法 等 方法 处 理 信息 ， 得 出 有 用 的 分 析 信息 。 

步骤 7 一 一 模式 评估 : 从 商业 角度 ， 由 行业 专家 来 验证 数据 挖掘 结果 的 正确 性 。 

步骤 8 一 一 知识 表示 : 将 数据 挖掘 所 得 到 的 分 析 信息 以 可 视 化 的 方式 呈现 给 用 户 ， 
或 作为 新 的 知识 存放 在 知识 库 中 ， 供 其 他 应 用 程序 使 用 。 

数据 挖掘 过 程 是 一 个 反复 循环 的 过 程 ， 任 何 一 个 步骤 如 果 没 有 达到 预期 目标 ， 都 
需要 回 到 前 面 的 步骤 ， 重 新 调整 并 执行 。 不 是 每 件数 据 挖掘 的 工作 都 需要 经 历 这 里 列 
出 的 每 一 步 ， 例 如 在 某 个 工作 中 不 存在 多 个 数据 源 的 时 候 ， 步 骤 2 便 可 以 省 略 。 

步骤 3 数据 规约 、 步 又 4 数据 清理 、 步 骤 5 数据 变换 又 合 称 数据 预 处 理 。 在 数据 
挖掘 中 ， 数 据 预 处 理 及 其 相关 工作 往往 占用 了 90% 以 上 的 时 间 。 





123 ”数据 挖掘 的 架构 一 一 云 计 算 


随 着 云 时 代 的 到 来 和 移动 互联 网 的 快速 发 展 ， 数 据 规模 从 MB 级 发 展 到 TB、PB 
级 甚至 EB、ZB 级 ， 并 且 面 临 着 TB 级 的 增长 速度 ， 数 据 挖掘 的 要 求 和 环境 也 变 得 越 
来 越 复杂 , 从 而 形成 “数据 量 的 急剧 膨胀 "和 “数据 深度 分 析 需 求 的 增长 ”这 两 大 趋势 ， 
使 得 40 年 来 一 直 适 用 的 数据 库 系 统 架构 在 海量 数据 挖掘 方面 显得 力不从心 。 

传统 的 数据 挖掘 技术 及 其 体系 架构 在 云 时 代 的 海量 数据 中 已 经 暴露 了 不 少 问题 ， 
其 中 首先 是 挖掘 效率 的 问题 ， 传 统 的 基于 单机 的 挖掘 算法 或 基于 数据 库 、 数 据 仓库 的 
挖掘 技术 及 并 行 挖 气 已 经 很 难 高 效 地 完成 海量 数据 的 分 析 ; 其 次 高 昂 的 软 硬 件 成 本 也 
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阻止 了 云 时 代数 据 挖掘 系统 的 发 展 ， 最 后 传统 的 体系 架构 不 能 完成 挖掘 算法 能 力 的 提 
供 ， 基 本 是 以 单个 算法 为 整体 模块 ， 用 户 只 能 使 用 已 有 的 算法 或 重新 编写 算法 完成 自 
己 独 特 的 业务 。 

云 计算 是 一 种 商业 计算 模式 ， 它 将 计算 任务 分 布 在 大 量 计算 机 构成 的 资源 池上 ， 
使 各 种 应 用 系统 能 够 根据 需要 获取 计算 力 、 存 储 空间 和 信息 服务 。 同 时 云 计 算是 并 行 
计算 、 分 布 式 计算 和 网 格 计 算 的 发 展 ， 或 者 说 是 这 些 计算 科学 概念 的 商业 实现 。 通 常 
认为 云 计 算 包 括 以 下 3 个 层次 的 服务 : 基础 设施 服务 CaaS) 、 平 台 服务 (PaaS) 、 
应 用 服务 (SaaS) ; 其 中 Iaas 提供 以 硬件 设备 为 基础 的 计算 、 存 储 和 网 络 服务 ， 实 
现 了 对 硬件 资源 的 抽象 化 提供 ， 使 得 分 布 式 计算 和 分 布 式 存储 成 为 现实 。 

云 计 算 具 有 如 下 特点 。 

(1) 虚拟 化 。 云 计算 支持 用 户 在 任意 位 置 使 用 各 种 终端 以 获取 应 用 服务 ， 所 请 
求 的 资源 来 自 云 而 不 是 固定 的 、 有 形 的 实体 ， 并 且 对 于 用 户 来 说 只 需要 使 用 云 提供 的 
服务 即 可 。 

(2) 通用 性 。 云 计算 不 针对 特定 的 应 用 ， 而 是 可 以 在 云 的 支撑 下 构造 出 千 变 万 
化 的 应 用 ， 同 一 个 云 可 以 同时 支撑 不 同 的 应 用 运行 。 

G) 高 可 扩展 性 及 超大 规模 。 云 的 规模 可 以 动态 扩展 ， 并 且 这 种 动态 扩展 对 用 户 
是 透明 的 ， 并 且 不 影响 用 户 的 业务 和 应 用 。 同 时 这 种 扩展 是 超大 规模 的 ， 如 Google 云 
计算 已 经 拥有 上 百 万 台 服 务 器 ，Amazon、IBM、 微 软 等 也 拥有 几 十 万 台 服 务 器 。 

(4) 可 靠 性 高 。 云 计算 使 用 多 副本 容错 、 多 计算 结 点 同 构 可 互 换 等 措施 来 保障 
服务 的 高 可 靠 性 。 

(5) 经 济 性 好 。 云 的 特殊 容错 机 制导 致 可 以 采用 廉价 的 结 点 来 构成 云 ， 而 云 的 
自动 化 集中 式 管理 使 得 大 量 企业 无 须 负 担 日 益 高 昂 的 数据 中 心 管理 成 本 。 云 的 通用 性 
使 资源 的 利用 率 较 之 传统 系统 大 幅 提 升 ， 因 此 用 户 可 以 充分 享受 云 的 低 成 本 优势 。 

数据 挖掘 云 化 策略 : 云 计算 的 出 现 既 给 数据 挖掘 带 来 了 问题 和 挑战 ， 也 给 数据 挖 
掘 带 来 了 新 的 机 遇 一 一 数据 挖掘 技术 将 会 出 现 基于 云 计算 的 新 模式 。 如 何 构建 基于 云 
计算 的 数据 挖掘 平台 也 将 是 业界 面临 的 主要 问题 之 一 ， 创 建 一 个 用 户 参与 、 开 发 技术 
要 求 不 高 的 、 快 速 响应 的 数据 挖掘 平台 也 是 迫切 需要 解决 的 问题 。 

从 业界 对 云 计算 的 理解 来 看 ， 云 计算 动态 的 、 可 伸缩 的 计算 能 力 使 得 高 效 的 海量 
数据 挖掘 成 为 可 能 。 云 计算 SaaS 功能 的 理解 和 标准 化 ， 使 得 基于 的 数据 挖掘 SaaS 化 
有 了 技术 和 理论 的 支持 ， 也 将 使 得 数据 挖掘 面向 大 众 化 和 企业 化 。 下 面 主要 从 基于 云 
计算 平台 的 数据 挖掘 服务 化 、 挖 掘 算法 并 行 化 、 挖 掘 算法 组 件 化 角度 进行 构建 数据 控 
掘 SaaS FG. 
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如 图 1-6 所 示 ， 移 动 大 云 平台 基于 云 计算 的 数据 挖 气 平台 架构 采用 分 层 的 思想 : 
首先 底层 支撑 采用 云 计算 平台 ， 并 使 用 云 计算 平台 提供 的 分 布 存储 以 及 分 布 式 计算 能 
力 完成 数据 挖掘 计算 能 力 的 并 行 实现 ; 其 次 数据 挖掘 平台 在 设计 上 采用 分 布 式 、 可 插 
拔 组 件 化 思路 ， 支 持 多 算法 部 署 、 调 度 等 ， 最 后 数据 挖掘 平台 提供 的 算法 能 力 采 用 服 
务 的 方式 对 外 暴露 , 并 支持 不 同业 务 系统 的 调用 , 从 而 较 方便 地 实现 业务 系统 的 推荐 、 
挖掘 等 相关 功能 需求 。 


业务 系统 根据 
第 三 方 算法 能 力 ”需要 调用 挖掘 能 力 








数据 挖掘 能力 接 入 | 司 据 控 气 能 力 暴 册 














d 数据 控 所 平台 ) 








云 计算 平台 
(分 布 式 存储 ， 分 布 式 计算 ) 


图 1-6 ”基于 云 计 算 的 数据 挖掘 平台 


数据 挖掘 平台 云 架构 : 云 计算 的 分 布 式 存储 和 分 布 式 计算 促使 了 新 一 代数 据 挖掘 
平台 的 变革 。 图 1-7 是 基于 云 的 数据 挖 据 平 台 架 构 。 考 虑 挖 据 算 法 和 推荐 算法 的 并 行 
化 和 分 布 化 是 一 个 专门 的 、 大 的 课题 ， 因 此 本 书 暂 不 包含 具体 算法 的 并 行 化 和 云 化 的 
内 容 。 

如 图 1-7 所 示 ， 该 平台 是 基于 云 计算 平台 实现 的 数据 挖掘 云 服务 平台 ， 采 用 分 层 
设计 的 思想 以 及 面向 组 件 的 设计 思路 ， 总 体 上 分 为 3 层 ， 自 下 向 上 依次 为 : 云 计算 支 
撑 平 台 层 、 数 据 挖掘 能 力 层 、 数 据 挖掘 云 服务 层 。 

1. 云 计算 支撑 平台 层 

云 计 算 支撑 平台 层 主 要 是 提供 分 布 式 文件 存储 、 数 据 库 存储 以 及 计算 能 力 。 自 主 
研发 的 云 计算 平台 ， 该 架构 可 以 基于 企业 自主 研发 的 云 计算 平台 ， 也 可 以 基于 第 三 方 
提供 的 云 计算 平台 。 

2. 数据 挖 握 能 力 层 

数据 挖掘 能 力 层 主要 是 提供 挖掘 的 基础 能 力 ， 包 含 算法 服务 管理 、 调 度 引起 、 数 
据 并 行 处 理 框架 ， 并 提供 对 数据 挖 气 云 服务 层 的 能 力 支撑 。 该 层 可 以 支持 第 三 方 挖掘 
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算法 工具 的 接 入 ， 例 如 Weka、Mathout 等 分 布 式 算法 库 ， 同 时 也 可 以 提供 内 部 的 数 
据 挖掘 算法 和 推荐 算法 库 。 
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图 1-7 基于 云 计 算 的 数据 挖掘 平台 架构 


3. 数据 挖 握 云 服务 层 

云 服务 层 主要 是 对 外 提供 数据 挖掘 云 服 务 ， 服 务 能 力 封装 的 接口 形式 可 以 是 多 样 
的 ， 包 括 基于 简单 对 象 访问 协议 (SOAP) 的 Webservice, HTTP, XML 或 本 地 应 用 
程序 编程 接口 CAPD 等 多 种 形式 。 云 服务 层 也 可 以 支持 基于 结构 化 查询 语言 语句 的 
访问 ， 并 提供 解析 引擎 ， 以 自动 调用 云 服务 。 各 个 业务 系统 可 以 根据 数据 和 业务 的 需 
要 调用 、 组 装 数据 挖掘 云 服务 。 

基于 云 计算 的 数据 挖掘 平台 与 传统 的 数据 挖掘 系统 架构 相 比 有 高 可 扩展 性 、 海 量 
数据 处 理 能 力 、 面 向 服务 、 硬 件 成 本 低廉 等 优越 性 ， 可 以 支持 大 范围 分 布 式 数据 挖掘 
的 设计 和 应 用 。 


1.2.4 “人 金字塔” 模型 


如 图 1-8 所 示 , 问题 、 数 据 \ 信息 、 知 识 、 智慧 构 成 了 数据 挖掘 中 的 “金字 塔 模 型， 
其 中 数据 、 信 息 、 知 识 与 智慧 之 间 既 有 联系 ， 又 有 区 别 。 数 据 是 记录 下 来 可 以 被 鉴别 
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的 符号 。 它 是 最 原始 的 素材 ， 未 被 加 工 解释 ， 没 有 回答 特定 的 问题 ， 没 有 任何 意义 ; 
信息 是 已 经 被 处 理 、 具 有 逻辑 关系 的 数据 ， 是 对 数据 的 解释 ， 这 种 信息 对 其 接收 者 具 
有 意义 。 知 识 是 从 相关 信息 中 过 滤 、 提 炼 及 加 工 而 得 到 的 有 用 资料 。 特 殊 背 景 / TEBE 
下 ， 知 识 将 数据 与 信息 、 信 息 与 信息 在 行动 中 的 应 用 之 间 建 立 有 意义 的 联系 ， 它 体现 
了 信息 的 本 质 、 原 则 和 经 验 。 此 外 ， 知 识 基于 推理 和 分 析 ， 还 可 能 产生 新 的 知识 。 最 
后 来 看 智慧 。 智 慧 ， 是 人 类 所 表现 出 来 的 一 种 独 有 的 能 力 ， 主 要 表现 为 收集 、 加 工 、 
应 用 、 传 播 知识 的 能 力 , 以 及 对 事物 发 展 的 前 脆性 看 法 。 在 知识 的 基础 之 上 , 通过 经 验 、 
阅历 、 见 识 的 累积 而 形成 的 对 事物 的 深刻 认识 、 远 见 ， 体 现 为 一 种 卓越 的 判断 力 。 


第 四 阶 
段 : 智慧 


第 三 阶段 : 知识 


第 二 阶段 : 信息 





数据 采集 数据 整合 数据 集成 
初始 化 阶段 : 问题 定义 
1-8 “问题 一 数据 一 信息 一 知识 一 智慧 ”的 “人 金字塔” 模型 


整体 来 看 ， 知 识 的 演进 层次 ， 可 以 双向 演进 。 从 噪声 中 分 拣 出 数据 ， 转 化 为 信息 ， 
升级 为 知识 ， 升 华为 智慧 。 这 样 一 个 过 程 ， 是 信息 的 管理 和 分 类 过 程 ， 让 信息 从 庞大 
无 序 到 分 类 有 序 ， 各 取 所 需 。 这 就 是 一 个 知识 管理 的 过 程 。 反 过 来 ， 随 着 信息 生产 与 
传播 手段 的 极 大 丰富 ， 知 识 生产 的 过 程 其实 也 是 一 个 不 断 衰退 的 过 程 ， 从 智慧 传播 为 
知识 ， 从 知识 普及 为 信息 ， 从 信息 变 为 记录 的 数据 。 

SE, 在 当今 海量 数据 、 信 息 爆炸 时 代 下 ， 知 识 起 到 去 伪 存 真 、 去 粗 存 精 的 作用 。 
知识 使 信息 变 得 有 用 ， 可 以 在 具体 工作 环境 中 ， 对 于 特定 接收 者 解决 “如 何 ” 开 展 工 
作 的 问题 ， 提 高 工作 的 效率 和 质量 。 同 时 ， 知 识 的 积累 和 应 用 ， 对 于 启迪 智慧 、 引 领 
未 来 起 到 了 非常 重要 的 作用 。 
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(13 ”数据 挖掘 对 智慧 运营 的 意义 } 


1.3.1 “互联 网 +” 时 代 的 来 临 及 其 对 运营 商 的 冲击 和 挑战 


2015 年 3 月 ， 政 府 工作 报告 中 首次 提出 制订 “互联 网 +” 行动 计划 ， 如 图 1-9 所 
示 。“ 互 联网 +” 引 起 了 全 社会 的 广泛 关注 ，“ 互 联网 +” 行动 计划 上 升 为 国家 战略 。 
面 对 “ 互 联网 +” 带 来 的 机 遇 , 基础 电信 业 作 为 推动 “互联 网 +” 行 动 实现 的 基础 力量 ， 
对 准确 把 握 “ 互 联网 +” 时 代 的 机 遇 和 挑战 至 关 重 要 的 。 未 来 ， 基 础 运营 商 将 在 新 一 
代 互 联网 基础 设施 建设 、 云 计算 、 大 数据 、 物 联网 等 为 代表 的 新 型 信息 技术 和 服务 方 
面 继续 扮演 重要 角色 。 

“互联 网 +” 是 把 互联 网 的 创新 成 果 与 经 济 社会 各 领域 深度 融合 ， 从 全 球 新 一 轮 
信息 技术 革命 和 产业 融合 来 看 ， 互 联网 技术 和 应 用 已 经 由 服务 领域 向 生产 领域 渗透 ， 
在 社会 生产 和 销售 环节 中 大 量 采 用 云 计算 、 大 数据 、 物 联网 等 互联 网 新 技术 ， 明 显 缩 
短 了 消费 者 与 消费 产品 的 距离 ， 甚 至 能 挖掘 出 消费 者 尚未 觉察 到 的 潜在 需求 。 





图 1-9 “互联 网 +” 


“互联 网 +” 的 发 展 初期 ， 基 础 电信 运营 商 首先 从 宽带 融合 、 移 动 数据 流量 、 互 
联网 数据 中 心 和 大 数据 服务 等 方面 挖掘 到 新 的 发 展 机 会 。 
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(1) 宽带 融合 性 业务 快速 增长 。 随 着 “宽带 中 国 ” 战 略 的 实施 和 “提速 降 费 ” 
专项 行动 的 推进 ， 我 国 互联 网 宽带 设施 建设 成 效 显 著 。“ 宽 带 中 国 ”战略 目标 是 到 
2020 年 ， 中 国 宽带 网 络 将 基本 覆盖 所 有 农村 ， 打 通 网 络 基础 设施 “最 后 一 公里 ”， 
让 更 多 人 用 上 互联 网 。2015 年 ， 互 联网 宽带 接 入 端口 数 达到 4.7 亿 个 ， 同 比 增长 
18.3%。 互 联网 宽带 接 入 端口 “ 光 进 铜 退 ” 趋 势 更 加 明显 ，xDSL 端口 占 比 下 降 至 
20.8%， 光 纤 接 入 CFITH/O) 端口 占 比 达到 $6.7%。 固 定 宽 带 的 发 展 带动 IPTV 业务 
的 加 速 增长 ，2015 年 ，IPTV 用 户 达 4589.5 万 户 ， 同 比 增 长 36.4%。 从 收入 来 看 ， 
2015 年 ， 我 国 互联 网 宽带 接 入 业务 收入 增长 3.0%，IPTV 业务 收入 增长 31.3%， 成 为 
拉动 基础 电信 业务 收入 的 重要 增长 点 。 

(2) 移动 数据 流量 的 需求 爆发 。 随 着 4G 网 络 的 普及 和 移动 应 用 市 场 的 迅速 发 展 ， 
移动 数据 流量 需求 高 速 增长 。2015 年 ， 我 国 新 增 移动 通信 基站 127.1 万 个 ， 是 上 年 净 增 
数 的 1.3 倍 ， 总 数 达 466.8 万 个 。 其 中 4G 基站 新 增 92.2 万 个 ， 总 数 达到 177.1 万 个 。 移 
动 互联 网 接 入 流量 同比 增长 103.0%， 比 上 年 提高 40.1 个 百分点 ， 月 户 均 移动 互联 网 接 
入 流量 达到 389.3M， 同 比 增长 89.9%。 移 动 数据 流量 的 爆发 式 增长 带动 移动 数据 及 互 
联网 业务 收入 持续 高 速 增长 。2015 年 ， 我 国 移动 数据 及 互联 网 业务 收入 增长 30.9%, 
占 基础 电信 业务 收入 的 比例 达到 27.6%， 拉 动 基础 电信 业务 收入 增长 6.6 个 百分点 。 

G) 运营 商 收获 互联 网 数据 中 心 (IDC) 千 亿 市 场 规模 。 随 着 社会 信息 化 水 平 
的 不 断 提高 ， 数 据 成 为 一 种 资产 ， 企 业 用 于 数据 中 心 维护 的 成 本 和 管理 难度 逐渐 加 
大 ， 互 联网 数据 中 心 (IDC) 能 够 为 企业 节省 成 本 、 降 低 企业 进入 互联 网 的 门槛 ， 使 
企业 专注 于 核心 业务 。 未 来 企业 和 用 户 对 互联 网 数据 中 心 的 需求 将 持续 增加 ， 预 计 到 
2020 年 ， 我 国 IDC 市 场 规模 将 达到 2500 亿 元 ， 平 均 复合 增长 率 达 30%， 它 与 基础 
电信 业务 万 亿 元 级 别 的 收入 相 比 虽 然 较 小 ， 但 它 的 增 速 远 高 于 基础 电信 业务 。 从 IDC 
服务 市 场 的 竞争 来 看 ， 基 础 电信 运营 商 凭 借 网 络 、 机 房 和 互联 网 用 户 资源 ， 主 营 IDC 
基础 业务 , 重点 向 大 型 企业 和 政府 提供 全 方位 的 电信 服务 , 在 IDC 市 场 占 有 重要 份额 。 
2014 年 ， 基 础 电信 运营 商 占 IDC 市 场 收 入 的 半壁 江山 。 从 长 期 来 看 ， 在 国内 IDC 市 
场 上 ， 各 参与 方 基于 自己 的 优势 拓展 市 场 ， 形 成 了 相对 稳定 的 环境 。 假 设 基础 电信 运 
营 商 份额 不 变 ，2020 年 运营 商 IDC 收入 将 达到 人 民 币 1200 亿 元 。 

机 遇 总 是 与 挑战 并 存 。“ 互 联网 +” 对 基础 电信 运营 商 的 挑战 体现 在 如 下 方面 : 

(1) 运营 商 面临 生态 系统 之 争 。“ 互 联网 +” 时 代 ， 消 费 者 的 信息 服务 需求 具 
有 综合 性 、 多 样 化 等 特点 ， 任 何 信息 服务 提供 商都 很 难 提供 全 部 的 信息 服务 ， 互 联网 
企业 、IT 企业 、 设 备 商 、 系 统 集成 商 等 均 围 绕 自身 传统 业务 搭建 新 型 生态 系统 ， 基 
础 电信 运营 商 面临 的 不 仅仅 是 产品 和 商业 模式 的 竞争 ， 而 且 是 生态 系统 之 间 的 竞争 ， 
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传统 的 以 基础 电信 运营 商 为 中 心 的 信息 服务 产业 链 正在 发 生变 革 ， 基 础 电信 运营 商 需 
要 适应 并 为 之 搭建 开放 融合 的 产业 生态 系统 ， 如 图 1-10 所 示 。 





图 1-10 全 球 信息 服务 生态 系统 


(2) 运营 商 在 云 计算 方面 处 于 弱势 地 位 。 随 着 新 一 代 信 息 技 术 在 传统 产业 中 的 
应 用 , 云 计算 技术 改变 了 传统 IT 服务 模式 , 解决 了 基础 资源 快速 部 署 和 高 成 本 问题 ， 
企业 产品 生产 和 交易 成 本 显著 降低 ， 企 业 对 云 计算 市 场 需求 不 断 扩 大 。 目 前 ， 我 国 公 
有 云 市 场 参与 者 主要 为 运营 商 、 互 联网 和 IT 企业 ， 运 营 商 以 传统 IDC 服务 商 的 角色 
进入 云 市 场 ， 基 础 电信 运营 商 在 国内 aas 领域 占有 率 不 到 10%， 互 联网 企业 依靠 强 
大 的 技术 已 经 涵盖 电子 商务 、 娱 乐 等 多 个 领域 ， 占 据 较 大 的 市 场 份额 。 

(3) 运营 商 面临 越 来 越 庞 大 的 网 络 成 本 压力 。“ 互 联网 +” 时 代 ， 为 满足 日 益 
爆发 的 信息 量 和 信息 服务 需求 ， 基 础 电信 运营 商 不 得 不 持续 加 大 基站 、 传 输 、IDC 等 
新 型 基础 设施 的 建设 力度 ， 高 速 增长 的 网 络 投 资 给 运营 商 带 来 持续 的 网 络 成 本 压力 。 
近年 来 ， 我 国 基础 电信 运营 商 固定 资产 投资 收入 比 一 直 维 持 在 30% 以 上 ， 是 国外 主 
流 运营 商 的 两 倍 以 上 ， 我 国 基础 电信 业 通 过 投资 拉动 效益 的 特征 显著 ， 运 营 商 的 固定 
资产 庞大 ， 转 型 中 成 本 压力 较 大 。 从 国外 运营 商 来 看 ， 越 来 越 多 的 运营 商 出 售 基站 、 
IDC 等 固定 资产 ， 降 低 网 络 维护 成 本 ， 同 时 为 开拓 新 兴业 务 、 发 展 新 技术 作 资金 准备 。 

面 对 “ 互 联网 +” 的 机 遇 与 挑战 ， 运 营 商 应 明确 定位 ， 加 快 转型 ， 认 清 自身 ， 发 
挥 优势 ， 开 拓 新 的 价值 空间 ， 探 索 互联 网 领域 的 机 会 ， 为 用 户 提供 更 实用 、 更 独特 的 
定制 化 服务 ， 开 放 关 键 能 力 ， 聚 合 内 外 部 资源 ， 实 现 互利 共 赢 。 


132 ”大 数据 时 代 的 来 临 及 其 对 运营 商 的 挑战 和 机 遇 


“大 数据 ”通过 新 处 理 模 式 而 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 ， 
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对 各 个 应 用 领域 的 创新 发 挥 着 重要 作用 ， 并 正 以 一 种 戏剧 性 的 方式 改变 数据 管理 的 各 
个 方面 。 麦 肯 锡 在 研究 报告 中 指出 ， 数 据 已 经 渗透 每 一 个 行业 和 业务 职能 领域 ， 逐 渐 
成 为 重要 的 生产 因素 ， 而 人 们 对 于 海量 数据 的 运用 将 预示 着 新 一 波 生产 率 增长 和 消费 
者 盈余 浪潮 的 到 来 ，“ 大 数据 ”时 代 正 式 到 来 ， 如 图 1-11。 麦 肯 锡 对 大 数据 的 定义 
就 是 从 个 体 数据 集 的 大 体 量 入 手 的 : 大 数据 是 指 那些 很 大 的 数据 集 ， 大 到 传统 的 数据 
库 软件 工具 已 经 无 法 采集 、 存 储 、 管 理 和 分 析 。 传 统 数据 库 有 效 工作 的 数据 大 小 一 般 
来 说 在 10-100TB， 因 此 10-100TB 通常 成 为 大 数据 的 门槛 ，IDC 在 给 大 数据 做 定义 时 
也 把 阔 值 设 在 100TB. 

















图 1-11 大 数据 时 代 


大 数据 的 热潮 兴起 于 新 一 代 信息 技术 的 融合 发 展 ， 物 联网 、 移 动 互 联网 、 数 字 家 
庭 、 社 会 化 网 络 等 应 用 使 得 数据 规模 快速 扩大 , 对 大 数据 处 理 和 分 析 的 需求 日 益 旺盛 ， 
推动 了 大 数据 领域 的 发 展 。 反 过 来 ， 大 数据 的 分 析 、 优 化 结果 又 反馈 到 这 些 应 用 中 
进一步 改善 其 使 用 体验 ， 支 撑 和 推动 新 一 代 信息 技术 产业 的 发 展 。 大 数据 将 为 信息 产 
业 带 来 新 的 增长 点 。IDC 曾 预测 ， 全 球 数 据 在 2015 年 将 达到 10 万 亿 TB。 面 对 爆发 
式 增长 的 海量 数据 ， 基 于 传统 架构 的 信息 系统 已 难以 应 对 ， 同 时 传统 商业 智能 系统 和 
数据 分 析 软 件 面 对 以 视频 、 图 片 、 文 字 等 非 结构 化 数据 为 主 的 大 数据 时 ， 也 缺少 有 效 
的 分 析 工 具 和 方法 。 

如 何 对 海量 数据 进行 采集 、 存 储 、 管 理 与 分 析 ， 如 何 对 视频 、 图 片 和 文字 等 非 机 
构 化 数据 进行 分 析 ， 等 等 ， 这 些 都 是 对 传统 电信 运营 商 的 极 大 挑战 。 运 营 商 系统 普遍 
面临 升级 换代 的 迫切 需求 ， 但 海量 数据 也 为 电信 产业 带 来 新 的 、 更 为 广阔 的 增长 点 。 

国外 的 电信 产业 在 应 对 大 数据 时 代 做 出 了 良好 的 示范 效果 。Verizon 推出 了 
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Precision Market Insights， 该 服务 已 经 开始 向 第 三 方 售卖 Verizon 手 上 的 用 户 数据 ， 
对 商场 、 体 育 馆 、 广 告 牌 业主 等 出 售 特定 场所 手机 用 户 的 活动 和 背景 信息 。 尽 管 
Google、Facebook、Amazon、 腾 讯 、 新 浪 等 借助 平台 和 应 用 的 确 可 以 抓 住 很 大 一 部 
分 的 用 户 信息 ， 但 谁 都 没有 运营 商 的 优势 。 因 为 深度 数据 包 分 析 这 种 手段 是 与 平台 、 
应 用 无 关 的 。 同 时 ， 由 于 一 般 用 户 都 是 只 使 用 一 家 运营 商 的 宽带 和 手机 业务 。 这 意味 
着 几乎 用 户 所 有 的 数据 业务 流量 都 要 经 过 那 家 运营 商 那 里 ， 而 且 与 用 户 具 有 很 强 的 对 
应 关系 〈 用 户 在 上 班 等 场合 使 用 公共 接 入 网 络 ， 以 及 在 家 中 由 于 家 庭 成 员 有 多 个 而 无 
法 一 一 对 应 除外 ) 。 运 营 商 对 个 人 数据 覆盖 的 广度 是 互联 网 平台 和 手机 应 用 提供 商 难 
以 匹敌 的 ， 其 手 上 的 数据 资源 也 是 很 多 互联 网 巨头 可 望 不 可 即 的 。 

此 外 ， 为 了 实施 新 的 信息 出 售 计 划 ，AT&T (如 图 1-12 所 示 ) 最 近 更 新 了 隐私 政 
策 ， 以 便 向 营销 者 、 广 告 商 等 相关 方 出 售 客户 对 其 有 线 及 无 线 网 络 使 用 情况 的 信息 。 
AT&T 在 政策 更 新 说 明 中 化 费 苦心 地 解释 了 这 种 做 法 是 常见 的 业界 实践 ，Google、 
Facebook, LAA Verizon 等 都 是 这 么 干 的。 当然 ， 这 种 说 法 没 错 ， 用 户 数据 支撑 着 
Web 的 运转 ， 它 是 定向 广告 的 基础 ， 同 时 也 是 提供 免费 和 付费 服务 公司 额外 的 收入 
来 源 。 对 于 运营 商 来 说 ， 移 动 网 络 并 非 互联 网 黑洞 ， 因 为 他 们 拥有 各 种 流量 监测 工具 
和 流量 优化 引擎 (如 AT&T 就 有 可 精确 跟踪 P2P 共享 内 容 并 识别 下 载 者 的 专利 ) ， 
这 些 工具 和 引擎 用 来 执行 运营 商 的 移动 数据 策略 ， 优 化 应 用 性 能 ， 并 帮助 解决 网 络 问 
题 。 而 这 些 事情 均 需 要 对 用 户 使 用 的 应 用 、 访 问 的 网 站 、 观 看 的 视频 等 有 所 了 解 。 这 
样 看 来 ， 运 营 商 坐 拥 的 是 一 座 名 副 其 实 的 大 数据 宝库 。 如 何 充 分 利用 这 个 大 数据 的 宝 
库 ， 是 值得 运营 商 进行 深入 研究 与 挖掘 的 。 


Stal 


图 1-12 AT&T 公司 


133 ”电信 运营 商 运 营 发 展 面临 的 主要 瓶颈 


移动 互联 网 的 迅猛 发 展 ， 致 使 我 国电 信 运 营 商 面临 的 发 展 形势 也 日 益 严峻 ， 增 量 
不 增收 、 缺 乏 互联 网 运营 经 验 、 对 终端 掌控 力度 不 足 、 业 务 创新 能 力 落 后 、 缺 乏 标准 
开发 能 力 以 及 资源 使 用 与 管理 运营 支撑 效率 低 等 各 种 问题 日 益 突出 。 面 对 “互联 网 +” 
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和 大 数据 的 双重 冲击 和 挑战 ， 管 道 化 、 边 缘 化 和 低 值 化 已 成 为 我 国电 信 运 营 商 运营 发 
展 所 面临 的 主要 瓶颈 。 一 方面 ， 用 户 数 和 网 络 流量 在 持续 增加 ， 电 信 运 营 商 必须 不 断 
地 升级 网 络 以 满足 市 场 需求 ， 另 一 方面 ， 面 对 互联 网 企业 的 “免费 ”攻势 ， 电 信 运 营 
商 无 法 获得 与 投入 相 匹 配 的 合理 收入 。 同 时 ， 大 量 OTT 应 用 的 涌现 给 电信 运营 商 的 
音 、 短 信 等 主要 的 传统 业务 造成 了 巨大 冲击 。 

图 1-13 展示 的 是 电信 运营 商 的 “管道 化 ”。 什 么 叫 作 管 道 化 ? 简单 来 说 ， 管 道 
化 就 是 指 运 营 商 的 精细 化 流量 经 营 。 移 动 互联 网 时 代 ， 运 营 商 之 间 以 及 与 互联 网 业界 
之 间 的 激烈 竞争 ， 导 致 运营 商 在 寻求 快速 发 展 的 同时 ， 管 道 化 趋势 的 进程 也 进一步 加 
Ro 另外， 移动 互联 网 应 用 的 快速 发 展 ， 促 使 运营 商 的 网 络 能 力 以 互联 网 平台 的 方式 
对 外 开放 , 运营 商 服务 方式 逐渐 与 互联 网 趋同 ， 向 低 成 本 、 低 QoS、 快 速 化 方向 发 展 。 
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图 1-13 ”电信 运营 商 的 “管道 化 ” 


电信 运营 商 在 直面 挑战 与 选择 出 路 的 时 候 ， 必 须 进行 冷静 、 深 刻 的 反思 ， 反 思 的 
Se eA A E 
身 在 移动 互联 网 时 代 的 角色 定位 ， 只 有 角色 定位 清晰 合理 ， 才 能 发 挥 优势 ， 通 过 合作 
求 得 生存 与 发 展 。 


134 电信 运营 商 发 展 的 “三 条 曲线 ” 


面 对 运 营 发 展 管道 化 、 边缘 化 和 低 值 化 的 瓶颈 , 电信 运营 商 应 及 时 改变 发 展 战略 ， 
调整 业务 结构 ， 挖 掘 新 的 可 发 展 领域 ， 进 行业 务 转型 。 为 此 ， 早 在 2014 年 6 月 上 海 
举行 的 亚洲 移动 博览 会 (MAE) 上 ， 对 于 未 来 运营 商 转型 的 方向 就 有 一 个 非常 精彩 
的 “三 条 曲线 ”理论 被 提出 。 
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运营 商 分 析 ， 移 动 互联 网 时 代 ，OTT (Over The Top， 是 指 通过 互联 网 向 用 户 提供 
各 种 应 用 服务 ) 的 快速 崛起 给 传统 运营 商 带 来 了 巨大 的 冲击 和 影响 。 传 统 运 营 商 赖 以 
生存 的 语音 以 及 短信 、 彩 信 ， 业 务 收 入 逐年 下 降 。 很 多 移动 互联 网 不 仅 是 对 传统 电信 
运营 商 的 冲击 ， 实 际 上 它 对 金融 业 、 出 版 业 等 也 都 产生 了 巨大 的 冲击 ， 所 以 现在 有 一 
个 比较 时 艇 的 词 叫 作 “ 数 字 赤 字 ”。 但 我 们 认识 到 移动 互联 网 的 发 展 是 技术 进步 ， 有 
利于 社会 生产 力 的 发 展 , 有 利于 改善 老百姓 的 生活 质量 , 实际 上 是 任何 人 都 阻挡 不 了 的 。 
对 于 传统 运营 商 来 说 何去何从 ? 恐怕 只 有 勇敢 地 面 对 。 运 营 商 认 为 在 这 次 颠覆 性 的 技 
术 革 命中 ， 实 际 上 是 机 遇 与 挑战 并 存 ， 在 一 定 程度 上 ， 把 握 好 了 ， 则 机 遇 大 于 挑战 。 





当前 所 处 阶段 ; 









图 1-14 运营 商 的 “三 条 曲线 ”关系 


所 谓 “ 三 条 曲线 ”的 发 展 模式 分 别 是 语音 和 短信 、 彩信, 流量 经 营 以 及 内 容 和 应 用 ， 
如 图 1-14 所 示 。 第 一 条 曲线 表明 了 语音 和 短信 、 彩 信 已 经 达到 了 顶峰 , 并 且 开 始 下 降 。 
如 今 ， 又 出 现 了 新 的 可 发 展 的 领域 ， 就 是 全 世界 的 传统 运营 商 无 一 例外 地 在 进行 流量 
经 营 ， 所 以 传统 电信 运营 商 正 处 在 语音 经 营 向 流量 经 营 转变 的 过 程 中 ， 这 就 是 第 二 条 
曲线 。 实 际 上 还 有 第 三 条 曲线 的 发 展 模式 ， 因 为 有 一 天 流量 经 营 也 会 饱和 ， 所 以 要 保 
持 企业 的 可 持续 发 展 ， 应 该 更 加 注重 内 容 和 应 用 的 发 展 〈 即 在 内 容 和 应 用 的 发 展 中 找 
到 运营 商 的 盈利 点 ) 。 这 就 是 整个 电信 行业 应 对 移动 互联 网 OTT 的 迅 狐 发 展 应 该 采 
取 的 措施 及 策略 。 

其 实 ， 运 营 商 对 于 第 三 条 曲线 的 描绘 可 谓 是 未 雨 绸 绪 。 随 着 近年 来 国家 高 层 大 力 
倡导 “提速 降 费 ”， 电 信 业 要 在 这 样 的 大 背景 下 完成 收入 增长 ， 就 必须 加 快 第 三 条 曲 
线 的 经 营 步伐 。 传 统 运营 商 中 以 中 国 移动 集团 公司 为 例 ， 自 2015 年 8 月 以 来 更 是 大 
力 推进 第 三 条 曲线 的 经 营 步伐 , 在 流量 经 营 成 效 显著 提升 的 基础 上 , 全 力 发 展 新 业务 ， 
在 深化 传统 领域 合作 的 基础 上 ， 中 国 移动 进一步 拓宽 合作 渠道 ， 在 数字 化 服务 等 新 兴 
领域 加 强 与 内 容 服务 、 业 务 开发 等 企业 合作 ， 推 进 专业 化 运营 ， 培 育 创新 发 展 能 力 。 
目前 ， 中 国 移动 在 数字 新 媒体 领域 合作 伙伴 超过 了 6000 家 。 
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135 智慧 运营 与 大 数据 变现 


面 对 “ 互 联网 +”、 大 数据 、 人 工 智 能 等 科技 创新 浪潮 带 来 的 新 商业 革命 ， 传 统 
运营 方式 已 不 足以 支撑 电信 运营 商 第 三 条 曲线 的 快速 发 展 ， 转 型 之 路 势 在 必 行 。 智 能 
化 重 构 是 中 国电 信 运 营 商 转型 战略 的 核心 ， 做 领先 的 综合 智能 信息 服务 运营 商 才 是 电 
信 运 营 商 的 长 久之 计 。 

“智能 ”是 以 数字 化 、 网 络 化 为 基础 ， 以 云 计算 、 大 数据 、 移 动 互联 网 、 物 联网 、 
人 工 智能 等 智能 化 技术 的 广泛 应 用 为 主要 驱动 ， 以 网 络 软件 化 、 功 能 虚拟 化 、 硬 件 通 
用 化 、 能 力 平 台 化 的 云 网 深度 融合 为 重要 前 提 ， 以 企业 内 外 部 数据 资源 的 深度 挖掘 、 
价值 呈现 为 常态 ， 以 多 元 智能 化 终端 为 载体 ， 实 现 跨 界 拓展 。 在 此 基础 上 提供 的 综合 
智能 信息 服务 包括 智能 连接 、 智 能 平台 、 智 能 应 用 ， 以 及 三 者 深度 融合 形成 的 业务 生 
态 。 智 慧 运 营 是 以 智能 服务 运营 ， 使 运营 商 的 服务 更 加 人 性 化 。 未 来 电信 运营 商 应 着 
重 推进 网 络 智能 化 、 业 务 生态 化 、 运 营 智慧 化 ， 为 用 户 提供 综合 智能 信息 服务 ， 引 领 
数字 生态 ， 服 务 产业 转型 升级 和 社会 治理 创新 。 

大 数据 变现 是 大 数据 热潮 中 最 现实 的 话题 之 一 。 大 数据 变现 不 是 简单 粗暴 的 数据 
交易 ， 而 是 通过 对 于 用 户 行为 数据 的 建 模 与 分 析 ， 获 得 群体 用 户 特征 的 认 知 和 理解 ， 
帮助 企业 满足 客户 真实 需求 ， 改 善 和 提升 客户 体验 。 在 进行 大 数据 价值 变现 过 程 中 ， 
运营 商 的 信息 源 不 会 转移 ， 不 可 能 暴露 ， 无 法 进行 关联 ， 更 不 进行 交易 。 保 护 和 尊重 
消费 者 隐私 数据 ， 是 运营 商 大 数据 商业 化 的 基本 准则 。 

参照 海外 经 验 ， 大 数据 变现 的 商业 模式 主要 包含 以 下 几 点 。 

CL) 数据 销售 ; 该 模式 主要 是 指 将 原始 数据 进行 销售 ， 或 者 授权 第 三 方 使 用 自 
有 数据 。 该 模式 在 国内 由 于 多 种 原因 进展 缓慢 , 国外 主要 在 金融 行业 用 于 信用 分 析 等 。 

(2) 研究 咨询 分 析 : 该 模式 是 指 公司 〈 如 咨询 公司 ) 通过 自 有 数据 、 公 开 数 据 
或 第 三 方 数据 进行 分 析 ， 得 出 行业 报告 或 者 某 些 特定 方向 的 报告 ， 并 将 报告 进行 售卖 
的 模式 。 

(3) 平台 : 该 模式 提供 平台 工具 的 出 租 ， 公 司 将 自 有 数据 导入 其 平台 或 利用 平 
全 工具 导入 第 三 方 数据 ,并 用 其 提供 的 工具 进行 计算 , 再 将 计算 结果 取 回 。 该 模式 下 ， 
平台 按照 数据 量 和 使 用 时 间 进 行 收费 。 该 模式 可 能 与 第 三 方 数据 存储 相 融 合 ， 对 于 用 
户 来 说 ， 将 数据 放 在 第 三 方 数据 仓库 并 使 用 其 平台 进行 计算 ， 较 为 便捷 。 

(4) 广告 等 应 用 : 通过 将 大 数据 进行 分 析 和 筛选 ， 从 而 将 广告 需求 对 接 至 DSP 
平台 等 ， 供 实时 竞价 等 。 

(5) 人 工 智能 开发 : 该 商业 模式 主要 通过 大 数据 分 析 不 断 进行 人 工 智 能 产品 的 
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开发 ， 如 谷歌 的 智能 驾驶 等 。 该 模式 在 国内 应 用 仍 较 少 。 

(6) 第 三 方 存储 : 在 该 商业 模式 下 ， 公 司 本 身 并 不 自 建 数据 库 或 者 数据 中 心 ， 
而 是 直接 将 数据 上 传 到 第 三 方 进行 存储 和 管理 ， 该 模式 对 于 公司 的 资本 开支 压力 较 
小 。 此 外 ， 我 们 注意 到 第 三 方 存储 由 于 其 在 技术 和 设备 上 的 领先 性 ， 可 以 帮助 公司 在 
节省 投资 的 情况 下 获得 较 好 效果 。 

(7) 第 三 方 分 析 : 在 该 商业 模式 下 ， 公 司 本 身 并 不 进行 大 数据 分 析 ， 而 是 聘请 
第 三 方 对 自 有 大 数据 进行 分 析 。 通 常 ， 公 司 会 指定 研究 方向 或 研究 目的 ， 由 第 三 方 进 
行 操作 。 


1.3.6 ”数据 挖掘 对 于 提升 智慧 运营 效率 的 意义 


数据 挖掘 对 于 提升 智慧 运营 效率 的 作用 ， 主 要 体现 在 以 下 4 个 方面 。 

(1) 对 顾客 群体 画像 ， 然 后 对 每 个 群体 量体裁衣 般 的 采取 独特 的 行动 。 

(2) 运用 大 数据 模拟 实 境 ， 发 掘 新 的 需求 和 提高 投入 的 回报 率 。 

G) 提高 大 数据 成 果 在 各 相关 部 门 的 分 享 程度 ， 提 高 整个 管理 链条 和 产业 链条 
的 投入 回报 率 。 

(4) 进行 商业 模式 、 产 品 和 服务 的 创新 。 

我 们 先 看 看 大 数据 与 数据 挖掘 技术 在 当下 有 怎样 的 杰出 表现 ， 帮助 政府 实现 市 场 
经 济 调控 、 公 共 卫 生 安 全 防范 、 灾 难 预 警 、 社 会 与 论 监督 ， 帮 助 城市 预防 犯罪 ， 实 现 
智慧 交通 ， 提 升 紧急 应 急 能 力 ;帮助 医疗 机 构建 立 患者 的 疾病 风险 跟踪 机 制 ， 帮 助 医 
药 企业 提升 药品 的 临床 使 用 效果 ， 帮 助 艾滋 病 研 究 机构 为 患者 提供 定制 的 药物 ， 帮 助 
航空 公司 节省 运营 成 本 ,帮助 电信 企业 实现 售后 服务 质量 提升 ， 帮 助 保险 企业 识别 欺 
诈骗 保 行为 ， 帮 助 快递 公司 监测 分 析 运 输 车 辆 的 故障 险情 以 提前 预警 维修 ， 帮 助 电力 
公司 有 效 识别 预警 即将 发 生 故 障 的 设备 ， 帮 助 电 商 公司 向 用 户 推荐 商品 和 服务 ， 帮 助 
旅游 网 站 为 旅游 者 提供 心仪 的 旅游 路 线 ， 帮 助 二 手 市 场 的 买卖 双方 找到 最 合适 的 交易 
目标 ， 帮 助 用 户 找到 最 合适 的 商品 购买 时 期 、 商 家 和 最 优惠 价格 ， 帮 助 企业 提升 营销 
的 针对 性 ， 降 低 物 流 和 库存 的 成 本 ,减少 投资 的 风险 ， 以 及 帮助 企业 提升 广告 投放 精 
WERE; 帮助 娱乐 行业 预测 歌手 、 歌 曲 、 电 影 、 电 视 剧 的 受 欢迎 程度 ， 并 为 投资 者 分 析 
评估 拍 一 部 电影 需要 投入 多 少 钱 才 最 合适 ， 否 则 就 有 可 能 收 不 回 成 本 ; 帮助 社交 网 站 
提供 更 准确 的 好 友 推荐 ， 为 用 户 提 供 更 精准 的 企业 招聘 信息 ， 向 用 户 推荐 可 能 喜欢 的 
游戏 以 及 适合 购买 的 商品 ， 等 等 。 

其 实 ， 这 些 还 远 远 不 够 ， 未 来 大 数据 的 身影 应 该 无 处 不 在 ， 就 算 无 法 准确 预测 大 
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数据 会 将 人 类 社会 带 往 哪 种 最 终 形态 ， 但 我 们 相信 只要 发 展 脚步 在 继续 ， 因 大 数据 和 
数据 挖掘 而 产生 的 变革 浪潮 将 很 快 淹没 地 球 的 每 一 个 角落 ， 并 对 人 类 社会 的 发 展 产生 
深远 的 意义 。 

未 来 的 大 数据 除了 将 更 好 地 解决 社会 问题 、 商 业 营销 问题 、 科 学 技术 问题 ， 还 有 
一 个 可 预见 的 趋势 是 一 一 以 人 为 本 的 大 数据 方针 。 人 才 是 地 球 的 主宰 ， 大 部 分 的 数据 
都 与 人 类 有 关 ， 要 通过 大 数据 解决 人 的 问题 。 


最 早 提出 “大 数据 ”时 代 到 来 的 是 管理 咨询 公司 麦肯锡 ; “数据 ， 已 经 渗透 到 当 
今 每 一 个 行业 和 业务 职能 领域 ， 成 为 重要 的 生产 因素 。 人 们 对 于 海量 数据 的 挖掘 和 运 
用 ， 预 示 着 新 一 波 生产 率 增长 和 消费 者 盈余 浪潮 的 到 来 。” 

“大 数据 ”在 物理 学 、 生 物 学 、 环 境 生态 学 等 领域 以 及 军事 、 金 融 、 通 信 等 行业 
存在 已 有 时 日 ， 却 因为 近年 来 互联 网 和 信息 行业 的 发 展 而 引起 人 们 的 广泛 关注 。 大 数 
据 作为 云 计算 、 物 联网 之 后 IT 行业 又 一 大 颠覆 性 的 技术 革命 。 云 计算 主要 为 数据 资 
产 提 供 了 保管 、 访 问 的 场所 和 渠道 ， 而 数据 才 是 真正 有 价值 的 资产 。 企 业内 部 的 经 
营 交 易 信息 、 互 联网 世界 中 的 商品 物流 信息 ， 互 联网 世界 中 的 人 与 人 交互 信息 、 
位 置信 息 等 ， 其 数量 将 远 远 超越 现 有 企业 IT 架构 和 基础 设施 的 承载 能 力 ， 实 时 性 
要 求 也 将 大 大 超越 现 有 的 计算 能 力 。 如 何 盘 活 这 些 数据 资产 ， 使 其 为 国家 治理 、 企 
业 决 策 乃 至 个 人 生活 服务 ， 是 大 数据 的 核心 议题 ， 也 是 云 计算 内 在 的 灵魂 和 必 
然 的 升级 方向 。 


1.4.1 大 数据 的 定义 


什么 是 大 数据 ? 维基 百科 将 其 定义 为 : 没有 办 法 在 允许 的 时 间 里 用 常规 的 软件 工 
具 对 内 容 进 行 抓 取 、 管 理 和 处 理 的 数据 集合 。 大 数据 规模 的 标准 是 持续 变化 的 ， 当 前 
泛 指 单一 数据 集 的 大 小 在 几 十 个 TB (万 亿 字 节 ) 和 几 个 PB〈 千 万 亿 字 节 ) 之 间 。 

大 数据 技术 的 战略 意义 不 在 于 掌握 庞大 的 数据 信息 ， 而 在 于 对 这 些 含有 意义 的 数 
据 进 行 专业 化 处 理 。 换 而 言 之 ， 如 果 把 大 数据 比 作 一 种 产业 ， 那 么 这 种 产业 实现 最 利 
的 关键 ， 在 于 提高 对 数据 的 “加 工 能 力 ”， 通 过 “加 工 ” 实 现 数 据 的 “增值 ”。 从 技 
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术 上 看 ， 大 数据 与 云 计算 的 关系 就 像 一 枚 硬币 的 正 反面 一 样 密 不 可 分 。 大 数据 必然 无 
法 用 单 台 的 计算 机 进行 处 理 ， 而 必须 采用 分 布 式 架构 。 它 的 特色 在 于 对 海量 数据 进行 
分 布 式 数据 挖掘 。 但 它 必 须 依托 云 计算 的 分 布 式 处 理 、 分 布 式 数据 库 和 云 存储 、 虚 拟 
化 技术 。 大 数据 通常 用 来 形容 一 个 公司 创造 的 大 量 非 结 构 化 数据 和 半 结 构 化 数据 ， 这 
些 数据 在 下 载 关 系 型 数据 库 用 于 分 析 时 会 花费 过 多 时 间 和 金钱 。 大 数据 分 析 常 和 云 计 
算 联 系 到 一 起 , 因为 实时 的 大 型 数据 集 分 析 需 要 像 MapReduce 一 样 的 框架 来 向 数 十 、 
数 百 或 甚至 数 千 的 电脑 分 配 工作 。 

大 数据 需要 特殊 的 技术 ， 以 有 效 地 处 理 大 量 的 容忍 经 过 时 间 内 的 数据 。 适 用 于 大 
数据 的 技术 ， 包 括 大 规模 并 行 处 理 (MPP) 数据 库 、 数 据 挖 掘 、 分 布 式 文件 系统 、 分 
布 式 数据 库 、 云 计算 平台 、 互 联网 和 可 扩展 的 存储 系统 。 


1.42 大 数据 的 “4V” 特 征 


业界 通常 用 4 个 “V”( 即 Volume, Variety, Value, Velocity) 来 概括 大 数据 的 特征 。 
具体 来 说 ， 大 数据 具有 4 个 基本 特征 。 

1. 数据 体 量 巨大 (Volume ) 

企业 面临 数据 量 的 大 规模 增长 。 例 如 ，IDC 最 近 的 报告 预测 称 ， 到 2020 年 ， 全 
球 数 据 量 将 扩大 50 倍 。 目 前 ， 大 数据 的 规模 尚 是 一 个 不 断 变 化 的 指标 ， 单 一 数据 集 
的 规模 范围 从 几 十 TB 到 数 PB 不 等 。 简 而 言 之 ， 存 储 1PB 数据 将 需要 两 万 台 配 备 
50GB 硬盘 的 个 人 电脑 。 此 外 ， 各 种 意 想 不 到 的 来 源 都 能 产生 数据 。 

2. 数据 类 型 繁多 (Variety ) 

一 个 普遍 观点 认为 ， 人 们 使 用 互联 网 搜索 是 形成 数据 多 样 性 的 主要 原因 ， 这 一 看 
法 部 分 正确 。 然 而 ， 数 据 多 样 性 的 增加 主要 是 由 于 新 型 多 结构 数据 ， 以 及 包括 网 络 日 
志 、 社 交 媒 体 、 互 联网 搜索 、 手 机 通话 记录 及 传感器 网 络 等 数据 类 型 造成 的 。 其 中 ， 
部 分 传感器 安装 在 火车 、 汽 车 和 飞机 上 ， 每 个 传感器 都 增加 了 数据 的 多 样 性 。 

3. 价值 密度 低 (Value ) 

价值 密度 低 ， 是 大 数据 的 一 个 典型 特征 。 大 量 的 不 相关 信息 ， 虽 经 浪 里 淘 沙 但 却 
又 弥 足 珍贵 。 对 未 来 趋势 与 模式 的 可 预测 分 析 ， 深 度 复杂 分 析 〈 机 器 学 习 、 人 工 智 能 
VS 传统 商务 智能 ) 咨询 、 报 告 等 ， 仍 有 一 定 参考 价值 。 

4. 处 理 速 度 快 Velocity ) 

高 速 描述 的 是 数据 被 创建 和 移动 的 速度 。 在 高 速 网 络 时 代 ， 通 过 基于 实现 软件 性 
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能 优化 的 高 速 电脑 处 理 器 和 服务 器 ， 创 建 实时 数据 流 已 成 为 流行 趋势 。 企 业 不 仅 需 要 
了 解 如 何 快速 创建 数据 ， 还 必须 知道 如 何 快速 处 理 、 分 析 并 返回 给 用 户 ， 以 满足 他 们 
的 实时 需求 。 根 据 IMSResearch 关于 数据 创建 速度 的 调查 ， 据 预测 ， 到 2020 年 全 球 
将 拥有 220 亿 部 互联 网 连接 设备 。 


1.4.3 ”结构 化 数据 与 非 结构 化 数据 


结构 化 数据 ， 即 行 数据 ， 可 以 用 二 维 表 结 构 来 逻辑 表达 实现 的 数据 。 相 对 于 结 
构 化 数据 而 言 ， 不 方便 用 数据 库 二 维 逻 辑 表 来 表现 的 数据 即 称 为 非 结构 化 数据 ， 包 
括 所 有 格式 的 办 公文 档 、 文 本 、 图 片 、XML、HTML、 各 类 报表 、 图 像 和 音频 / 视 
频 信息 等 。 在 实际 大 数据 应 用 中 ， 我 们 会 遇 到 各 式 各 样 的 数据 ， 下 面 列 出 各 种 数据 
类 型 。 

1. 结构 化 数据 

能 够 用 数据 或 统一 的 结构 加 以 表示 ， 我 们 称 之 为 结构 化 数据 ， 如 数字 、 符 号 。 传 
统 的 关系 数据 模型 、 行 数据 ， 存 储 于 数据 库 ， 通 常 可 用 二 维 表 结构 表示 。 

2. 半 结 构 化 数据 

所 谓 半 结 构 化 数据 ， 就 是 介 于 完全 结构 化 数据 (如 关系 型 数据 库 、 面 向 对 和 象 数 
据 库 中 的 数据 ) 和 完全 无 结构 的 数据 (如 声音 、 图 像 文件 等 ) 之 间 的 数据 ，XML、 
HTML 文档 就 属于 半 结 构 化 数据 。 它 一 般 是 自 描述 的 ， 数 据 的 结构 和 内 容 混在 一 起 ， 
没有 明显 的 区 分 。 

3. 非 结构 化 数据 

非 结构 化 数据 库 是 指 其 字段 长 度 可 变 ， 并 且 每 个 字段 的 记录 又 可 以 由 可 重复 
或 不 可 重复 的 子 字段 构成 的 数据 库 ， 用 它 不 仅 可 以 处 理 结构 化 数据 〈 如 数字 、 符 
号 等 信息 ) 而 且 更 适合 处 理 非 结构 化 数据 (全文 文本 、 图 像 、 声 音 、 影 视 、 超 媒 
体 等 信息 ) 。 

据 IDC 的 一 项 调查 报告 指出 : 企业 中 80% 的 数据 都 是 非 结 构 化 数据 ， 这 些 数据 
每 年 都 按 指数 增长 60%。 非 结构 化 数据 ， 顾 名 思 义 ， 是 存储 在 文件 系统 的 信息 ， 而 
不 是 数据 库 。 有 关 报 道 指出 : 平均 只 有 1% ~ 5% 的 数据 是 结构 化 数据 。 如 今 ， 这 种 
迅猛 增长 的 从 不 使 用 的 数据 在 企业 里 消耗 着 复杂 而 昂贵 的 一 级 存储 的 存储 容量 。 结 构 
化 、 半 结构 化 和 非 结构 化 等 数据 的 激增 ， 给 大 数据 技术 带 来 了 极 大 的 挑战 ， 如 何 处 理 
海量 数据 从 而 提升 数据 价值 是 当前 大 数据 技术 发 展 的 关键 。 
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15.1 文本 挖掘 


文本 挖掘 是 近 几 年 来 数据 挖掘 领域 的 一 个 新 兴 分 支 ， 文 本 挖掘 也 称 为 文本 数据 库 
中 的 知识 发 现 ， 是 从 大 量 文本 的 集合 或 者 语料库 中 抽取 事先 未 知 的 、 可 理解 的 、 有 潜 
在 实用 价值 的 模式 和 知识 。 对 文本 信息 的 挖掘 主要 是 发 现 某 些 文字 出 现 的 规律 以 及 文 
字 与 语义 、 语 法 间 的 联系 , 用 于 自然 语言 的 处 理 , 如 机 器 翻译 、 信息 检索 、 信息 过 滤 等 。 
通常 采用 信息 提取 、 文 本 分 类 、 文 本 聚 类 、 自 动 文摘 和 文本 可 视 化 等 技术 从 非 结构 化 
文本 数据 中 发 现 知识 。 

1. 文 本 挖 气概 述 

文本 挖掘 是 一 个 以 半 结 构 或 者 无 结构 的 自然 语言 文本 为 对 象 的 数据 挖 据 ， 是 从 大 
规模 文本 数据 集合 中 发 现 事先 未 知 的、 重要 的 、 新 颖 的 、 有 潜在 规律 的 有 用 信息 的 过 
程 。 文 档 本 身 是 无 结构 化 的 或 半 结 构 化 的 ， 无 确定 形式 并 且 缺 乏 机 器 可 理解 的 语义 ， 
而 数据 挖掘 技术 的 应 用 对 象 以 数据 库 中 的 结构 化 数据 为 主 ， 并 利用 关系 表 等 存储 结构 
来 发 现 知识 ， 因 此 ， 数 据 挖 掘 的 技术 不 适用 于 文本 挖掘 ， 即 使 要 使 用 ， 也 需要 建立 在 
对 文本 集 预 处 理 的 基础 之 上 。 

文本 挖掘 的 基本 思想 : 首先 利用 文本 切 分 技术 ， 抽 取 文 本 特征 ， 将 文本 数据 转化 
为 能 描述 文本 内 容 的 结构 化 数据 ， 然 后 利用 聚 类 技术 、 分 类 技术 和 关联 分 析 技 术 等 数 
据 挖 掘 技术 ， 形 成 结构 化 文本 ， 并 根据 该 结构 发 现 新 的 概念 和 获取 相应 的 关系 。 文 本 
挖掘 模型 结构 如 图 1-15 所 示 。 
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图 1-15 文本 挖掘 模型 结构 
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2. 文 本 特征 抽取 

文本 特征 指 的 是 关于 文本 的 元 数据 。 文本 特征 可 以 分 为 两 种 : 一 种 是 描述 性 特征 ， 
如 文本 的 名 称 、 日 期 、 大 小 、 类 型 等 ， 另 一 种 是 语义 性 特征 ， 如 文本 的 作者 、 标 题 、 
机 构 、 内 容 等 。 

抽取 文本 特征 首先 要 对 文本 进行 分 词 。 常 见 的 分 词 方法 分 别 有 最 大 匹配 法 和 最 大 
概率 法 。 最 大 匹配 法 的 基本 思想 是 ， 选 取 6 ~ 8 个 汉字 作为 最 大 符号 串 ， 把 最 大 符号 串 
与 词典 中 的 单词 条 目 相 匹配 ， 直 到 在 词典 中 找到 相应 的 单词 为 止 。 最 大 概率 法 的 基本 思 
想 是 ,对 于 一 个 待 切 分 的 字符 串 ,有 多 种 切 分 的 可 能 ,选择 概率 最 大 的 作为 分 词 的 结果 。 

分 词 有 两 大 难题 。 一 个 是 歧义 ， 不 同 的 分 词 方式 会 有 语义 ， 一 般 需 要 联系 上 下 文 
才能 做 出 正确 的 分 词 。 另 一 个 是 新 词 识别 ， 包 括 一 些 人 名 、 生 个 的 地 名 、 新 出 现 的 未 
收录 的 新 词 。 对 于 现在 的 搜索 引擎 来 说 ， 分 词 系统 的 新 词 识别 功能 很 重要 ， 已 经 成 为 
评价 一 个 分 词 系统 性 能 好 坏 的 重要 标志 之 一 。 

3. 特征 选择 

文本 分 类 是 文本 挖掘 中 的 主要 任务 之 一 ， 特 征 选择 作为 文本 分 类 的 前 提 ， 重 要 性 
不 言 而 喻 。 词 、 词 组 和 短语 是 组 成 文档 的 基本 元 素 ， 并 且 在 不 同 内 容 的 文档 中 ， 各 词 
条 出 现 频率 存在 一 定 的 规律 性 ， 不 同 特征 的 词 条 可 以 区 分 不 同 内 容 的 文本 。 因 此 ， 可 
以 抽取 一 些 特征 词 条 构成 特征 矢量 ， 用 这 些 特征 矢量 来 表示 文本 。 这 是 一 个 非 结 构 化 
向 结构 化 转化 的 处 理 过 程 。 常 用 的 特征 选择 模型 有 布尔 模型 和 向 量 空间 模型 ， 常 用 的 
选择 特征 词 的 方法 有 特征 词 的 文档 频率 法 、 信 息 增益 法 、 互 信息 法 、 开 方 拟 合 检验 法 。 

(1) 布尔 模型 。 

布尔 模型 是 基于 特征 项 的 严格 匹配 模型 。 查 询 由 特征 项 和 逻辑 运算 符 
“AND” “OR” “NOT” 组 成 , 文本 用 这 些 特征 变量 来 表示 ， 如 果 出 现 相应 的 特征 项 ， 
则 特征 变量 取 “Trme”， 和 否则 ， 特 征 变量 取 “False”。 文 本 与 查询 匹配 时 ， 遵 循 布尔 
运算 的 法 则 。 

布尔 模型 的 优点 ， 速度 快 ， 易 于 表达 一 定 程度 的 结构 化 信息 ， 如 同 义 关系 (电脑 
OR 计算 机 OR 微机 ) 或 词组 (数据 AND 挖掘 ) 。 其 缺点 是 : 过 于 严格 ， 缺 乏 灵活 性 ， 往 往 
会 忽略 许多 满足 用 户 需求 的 文本 ， 缺乏 定量 分 析 ， 无 法 反映 特征 项 对 文本 的 重要 性 。 

(2) 向 量 空间 模型 。 

在 向 量 空间 模型 中 ， 文 档 d 被 看 作 一 系列 无 序 词 条 的 ， 对 每 个 词 条 加 上 一 个 对 应 
的 权 值 ， 以 向 量 表示 文本 : (w 0 e 0) 其 中 为 第 ;个 特征 项 的 权重 。 要 
将 文本 表示 为 向 量 空间 中 的 一 个 向 量 ， 首 先 需要 将 文本 进行 分 词 ， 由 这 些 词 作为 向 量 
的 维 数 来 表示 文本 。 最 初 的 向 量 表示 完全 是 01 形式 ， 当 文本 中 出 现 了 该 词 ， 那 么 文 
本 向 量 该 词 对 应 的 维度 为 1， 和 否则 为 0。 但 这 种 方法 无 法 体现 词 在 文本 的 作用 程度 ， 
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逐渐 被 更 精确 的 词 频 代替 。 词 频 分 为 绝对 词 频 和 相对 词 频 ， 前 者 用 词 在 文本 中 出 现 的 
频率 表示 ， 或 者 为 归 一 化 的 词 频 。 向 量 空间 模型 将 文档 映射 为 一 个 特征 向 量 : V (d) = 
(t,o, (d), =, 4, 0,0), RPLAWAM, o (D 为 在 d 中 的 权 值 ， 
被 定义 为 出 现 频率 的 函数 ， 即 w d=" GF, ) 。 在 信息 检索 中 常用 的 词 条 权 值 
计算 方法 为 TF-IDF， 函 数 表达 式 为 


Y= f (Qxl) (1-1) 


SO, NASCAR TA SOM INS n 为 文档 集中 含有 词 条 # 的 文档 数目 。 

根据 TF-IDF 的 公式 ， 文 本 集中 包含 某 一 词 条 文本 越 多 ， 说 明 它 进行 文本 分 类 的 
能 力 越 低 ， 其 权 值 越 小 ， 若 某 一 文本 中 某 一 词 条 出 现 的 频率 越 高 ， 说 明 它 区 分 该 文本 
的 能 力 越 强 ， 其 权 值 越 大 。 

向 量 空间 模型 的 优点 是 : 特征 项 与 权 值 结 合 ， 可 以 进行 定量 分 析 ， 缺 点 在 于 假设 
各 特征 项 之 间 是 线性 无 关 的 ， 然 而 在 自然 语言 中 ， 词 与 词 之 间 有 着 十 分 密切 的 联系 。 

4. 文本 分 类 

文本 自动 分 类 , 是 指 在 给 定 的 分 类 体系 下 , 根据 文本 的 内 容 确定 文本 关联 的 类 别 。 
从 数学 的 角度 来 看 ， 文 本 分 类 是 一 个 映射 过 程 ， 它 将 未 标明 类 别 的 文本 映射 到 已 有 的 
类 别 中 ， 可 以 是 一 一 映射 ， 也 可 以 是 一 对 多 的 映射 。 

大 量 经 典 的 数据 挖掘 方法 都 已 经 在 文本 分 类 方面 取得 了 巨大 的 成 果 。 数 据 挖掘 技 
术 应 用 到 文本 分 类 的 基本 思想 是 将 训练 向 量 集 与 待 分 类 的 向 量 集 比较 。 本 书后 面 章 节 
介绍 的 KK 近邻 分 类 算法 、 朴 素 贝 叶 斯 分 类 算法 、 贝 叶 斯 信念 网 络 、 决 策 树 、 神 经 网 络 、 
支持 向 量 机 等 算法 都 可 以 应 用 于 经 过 预 处 理 之 后 的 文本 中 ， 进 行文 本 分 类 。 

5. 分 类 评估 

评估 分 类 系统 有 两 个 重要 指标 : 准确 率 和 召回 率 。 

准确 率 又 称 查 准 率 ， 是 检索 到 的 文档 中 相关 文档 占 全 部 检索 到 文档 的 百分比 ， 它 
衡量 的 是 检索 系统 的 准确 性 。 

召回 率 又 称 查 全 率 ， 是 被 检索 出 的 文档 中 相关 文档 占 全 部 相关 文档 的 百分比 ， 它 
所 衡量 的 是 系统 的 全 面 性 。 

准确 率 和 召回 率 反 映 了 分 类 质量 的 两 个 不 同方 面 ， 二 者 必须 综合 考虑 。 


1.5.2 ”模式 识别 


模式 识别 是 人 类 的 一 项 基本 智能 ,在 日 常生 活 中 ， 人 们 经 常 在 进行 “模式 识别 ”。 
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随 着 20 世纪 40 年 代 计算 机 的 出 现 以 及 50 年 代 人 工 智能 的 兴起 ， 人 们 也 希望 能 用 计 
算 机 来 代替 或 扩展 人 类 的 部 分 脑力 劳动 。〈 计 算 机 ) 模式 识别 在 20 世纪 60 ERIE 
速 发 展 并 成 为 一 门 新 学 科 。 


1.5.2.1 模式 识别 概述 


什么 是 模式 和 模式 识别 ? 狭义 地 说 ， 存 在 于 时 间 和 空间 中 可 观察 的 事物 ， 如 果 可 
以 区 别 它们 是 否 相 同 或 相似 ， 都 可 以 称 之 为 “模式 ”。 广 义 地 说 ， 模 式 是 通过 对 具体 
的 个 别 事物 进行 观测 所 得 到 的 具有 时 间 和 空间 分 布 的 信息 ， 把 模式 所 属 的 类 别 或 同一 
类 中 模式 的 总 体 称 为 “模式 类 ”或 简称 为 “类 ”) 。 而 “模式 识别 ” 则 是 在 某 些 一 
定量 度 或 观测 基础 上 把 待 识 模式 划分 到 各 自 的 模式 类 型 中 去 。 

模式 识别 的 研究 主要 集中 在 两 方面 即 研究 生物 体 (包括 人 ) 是 如 何 感知 对 象 的 ， 
以 及 在 给 定 的 任务 下 ， 如 何 用 计算 机 实现 模式 识别 的 理论 和 方法 。 前 者 是 生理 学 家 、 
心理 学 家 、 生 物 学 家 、 神 经 生理 学 家 的 研究 内 容 ， 属 于 认 知 科学 的 范畴 ， 后 者 通过 数 
学 家 、 信 息 学 专家 和 计算 机 科学 工作 者 近 几 十 年 来 的 努力 ， 已 经 取得 了 系统 性 的 研究 
成 果 。 

一 个 计算 机 模式 识别 系统 基本 上 是 由 三 个 相互 关联 而 又 有 明显 区 别 的 过 程 组 成 
的 ， 即 数据 生成 、 模 式 分 析 和 模式 分 类 。 数 据 生成 是 将 输入 模式 的 原始 信息 转换 为 向 
量 ， 成 为 计算 机 易于 处 理 的 形式 。 模 式 分 析 是 对 数据 进行 加 工 ， 包 括 特征 选择 、 特 征 
提取 、 数 据 维 数 压 缩 和 决定 可 能 存在 的 类 别 等 。 模 式 分 类 则 是 利用 模式 分 析 所 获得 的 
信息 ， 对 计算 机 进行 训练 ， 从 而 制定 判别 标准 ， 以 期 对 待 识别 模式 进行 分 类 。 


1.5.2.2 ”模式 识别 方法 


有 两 种 基本 的 模式 识别 方法 ， 即 统计 模式 识别 方法 和 结构 (句法 ) 模式 识别 方法 。 
统计 模式 识别 是 对 模式 的 统计 分 类 方法 ， 即 结合 统计 概率 论 的 贝 叶 斯 决策 系统 进行 模 
式 识别 的 技术 ， 又 称 为 决策 理论 识别 方法 。 利 用 模式 与 子 模式 分 层 结构 的 树 状 信息 所 
完成 的 模式 识别 工作 ， 就 是 结构 模式 识别 或 句法 模式 识别 。 

1. 决策 理论 方法 

决策 理论 方法 ， 又 称 统计 方法 ， 是 发 展 较 早 也 比较 成 熟 的 一 种 方法 。 被 识别 
对 象 首先 数字 化 ， 变 换 为 适 于 计算 机 处 理 的 数字 信息 。 一 个 模式 常常 要 用 很 大 的 信 
息 量 来 表示 。 许 多 模式 识别 系统 在 数字 化 环节 之 后 还 进行 预 处 理 ， 用 于 除去 混入 的 
干扰 信息 并 减少 某 些 变 形 和 失真 。 随 后 是 进行 特征 抽取 ， 即 从 数字 化 后 或 预 处 理 
后 的 输入 模式 中 抽取 一 组 特征 。 所 谓 特 征 其 实 是 选 定 的 一 种 度量 ， 它 对 于 一 般 的 变 
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形 和 失真 保持 不 变 或 几乎 不 变 ， 并 且 只 含 尽 可 能 少 的 宛 余 信息 。 特 征 抽取 过 程 将 输 
入 模式 从 对 象 空间 映射 到 特征 空间 。 这 时 ， 模 式 可 用 特征 空间 中 的 一 个 点 或 一 个 特 
征 矢量 表示 。 这 种 映射 不 仅 压缩 了 信息 量 ， 而 且 易 于 分 类 。 在 决策 理论 方法 中 ， 特 
征 抽 取 占 有 重要 的 地 位 ， 但 尚 无 通用 的 理论 指导 ， 只 能 通过 分 析 具 体 识别 对 象 决定 
选取 何 种 特征 。 特 征 抽取 后 可 进行 分 类 ， 即 从 特征 空间 再 映射 到 决策 空间 。 为 此 而 
引入 鉴别 函数 ， 由 特征 矢量 计算 出 对 应 于 各 类 别 的 鉴别 函数 值 ， 通 过 鉴别 函数 值 的 
比较 实行 分 类 。 

2. 句法 方法 

句法 方法 ， 又 称 结构 方法 或 语言 学 方法 。 其 基本 思想 是 把 一 个 模式 描述 为 较 简单 
的 子 模式 组 合 ， 子 模式 又 可 描述 为 更 简单 的 子 模式 组 合 ， 最 终 得 到 一 个 树 形 的 结构 描 
述 ， 在 底层 最 简单 的 子 模式 称 为 模式 基 元 。 在 句法 方法 中 选取 基 元 的 问题 相当 于 在 决 
策 理论 方法 中 选取 特征 的 问题 。 通 常 要 求 所 选 的 基 元 能 对 模式 提供 一 个 紧凑 的 反映 其 
结构 关系 的 描述 ， 又 要 易于 用 非 句法 方法 加 以 抽取 。 显 然 ， 基 元 本 身 不 应 该 含有 重要 
的 结构 信息 。 模 式 以 一 组 基 元 和 它们 的 组 合 关系 来 描述 ， 称 为 模式 描述 语句 ， 这 相当 
于 在 语言 中 ， 句 子 和 短语 用 词组 合 ， 词 用 字符 组 合 一 样 。 基 元 组 合成 模式 的 规则 ， 由 
所 谓语 法 来 指定 。 一 旦 基 元 被 鉴别 ， 识 别 过 程 可 通过 句法 进行 分 析 ， 即 分 析 给 定 的 模 
式 语 句 是 否 符合 指定 的 语法 ， 满 足 某 类 语法 的 即 被 分 入 该 类 。 

模式 识别 方法 的 选择 取决 于 问题 的 性 质 。 如 果 被 识别 的 对 象 极为 复杂 ， 而 且 包含 
丰富 的 结构 信息 ， 一 般 采 用 句法 方法 ; 被 识别 对 象 不 很 复杂 或 不 含 明显 的 结构 信息 ， 
一 般 采 用 决策 理论 方法 。 这 两 种 方法 不 能 截然 分 开 ， 在 句法 方法 中 ， 基 元 本 身 就 是 用 
决策 理论 方法 抽取 的 。 在 应 用 中 ， 将 这 两 种 方法 结合 起 来 分 别 施加 于 不 同 的 层次 ， 常 
常 能 收 到 较 好 的 效果 。 


1.5.2.3 ”模式 识别 的 应 用 


1. 文 字 识别 

汉字 已 有 数 千年 的 历史 ， 也 是 世界 上 使 用 人 数 最 多 的 文字 ， 对 于 中 华 民族 灿烂 
文化 的 形成 和 发 展 有 着 不 可 磨灭 的 功勋 。 所 以 在 信息 技术 及 计算 机 技术 日 益 普及 的 今 
R, 如 何 将 文字 方便 、 快 速 地 输入 计算 机 中 已 成 为 影响 人 机 接口 效率 的 一 个 重要 瓶颈 ， 
也 关系 到 计算 机 能 否 真正 在 我 国 得 到 普及 应 用 。 目 前 ， 汉 字 输 入 主要 分 为 人 工 键盘 输 
入 和 机 器 自动 识别 输入 两 种 。 其 中 人 工 键盘 输入 速度 慢 而 且 劳动 强度 大 ， 自 动 输入 又 
分 为 汉字 识别 输入 及 语音 识别 输入 。 从 识别 技术 的 难度 来 说 ， 手 写 体 识别 的 难度 高 于 
印刷 体 识别 ， 而 在 手写 体 识别 中 ， 脱 机 手写 体 的 难度 又 远 远 超过 了 连 机 手写 体 识别 。 
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到 目前 为 止 ， 除 了 脱 机 手写 体 数字 的 识别 已 有 实际 应 用 外 ， 汉 字 等 文字 的 脱 机 手写 体 
识别 还 处 在 实验 室 阶 段 。 

2. 语音 识别 

语音 识别 技术 所 涉及 的 领域 包括 : 信号 处 理 、 模 式 识 别 、 概 率 论 和 信息 论 、 发 声 
机 理 和 听觉 机 理 、 人 工 智能 等 。 近 年 来 ， 在 生物 识别 技术 领域 中 ， 声 纹 识别 技术 以 其 
独特 的 方便 性 、 经 济 性 和 准确 性 等 优势 受到 世人 瞩目 ， 并 日 益 成 为 人 们 日 常生 活 和 工 
作 中 重要 且 普 及 的 安全 验证 方式 。 而 且 利用 基因 算法 连续 训练 隐 马 尔 可 夫 模 型 的 语音 
识别 方法 现 已 成 为 语音 识别 的 主流 技术 ， 该 方法 在 语音 识别 时 识别 速度 较 快 ， 也 有 较 
高 的 识别 率 。 

3. 指纹 识别 

我 们 手掌 及 其 手指 、 脚 、 脚 趾 内 侧 表面 的 皮肤 四 凸 不 平 产生 的 纹路 会 形成 各 种 各 
样 的 图 案 。 而 这 些 皮肤 的 纹路 在 图 案 、 断 点 和 交叉 点 上 各 不 相同 ， 是 唯一 的 一 种 。 依 
靠 这 种 唯一 性 ， 就 可 以 将 一 个 人 同 他 的 指纹 对 应 起 来 ， 通 过 他 的 指纹 和 预先 保存 的 指 
纹 进 行 比 较 ， 便 可 以 验证 他 的 真实 身份 。 一 般 的 指纹 分 成 有 以 下 几 个 大 的 类 别 : left 
loop, right loop, twinloop, whorl, arch 和 tented arch， 这 样 就 可 以 将 每 个 人 的 指纹 
分 别 归 类 ， 进 行 检索 。 指 纹 识别 基本 上 可 分 成 : 预 处 理 、 特 征 选择 和 模式 分 类 几 个 大 
的 步骤 。 

4. 语音 识别 技术 

语音 识别 技术 正 逐 步 成 为 信息 技术 中 人 机 接口 的 关键 技术 ， 语 音 技 术 的 应 用 已 经 
成 为 一 个 具有 竞争 性 的 新 兴 高 技 术 产 业 。 中 国 互 联网 中 心 的 市 场 预测 : 未 来 5 年， 中 
文 语音 技术 领域 将 会 有 超过 400 亿 人 民 币 的 市 场 容量 , 然后 以 每 年 超过 30% 的 速度 
增长 。 

5. 生物 认证 技术 

生物 认证 技术 是 21 世纪 最 受 关注 的 安全 认证 技术 ， 它 的 发 展 是 大 势 所 趋 。 人 们 
愿意 忘掉 所 有 的 密码 、 扔 掉 所 有 的 磁卡 ， 凭 借 自身 的 唯一 性 来 标识 身份 与 保密 。 国 际 
数据 集团 (IDC) 预测 : 作为 未 来 必然 发 展 方向 的 移动 电子 商务 基础 核心 技术 的 生物 
识别 技术 在 未 来 10 年 的 时 间 里 将 达到 100 亿美 元 的 市 场 规模 。 

6. 数字 水 印 技术 

20 世纪 90 年 代 在 国际 上 开始 发 展 起 来 的 数字 水 印 技术 是 最 具 发 展 潜力 与 优势 的 
数字 媒体 版 权 保护 技术 。IDC 预测 ， 数 字 水 印 技术 在 未 来 的 5 年 内 全 球 市 场 容量 将 超 
过 80 亿美 元 。 
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1.5.3 语音 识别 


语音 识别 ， 作 为 信息 技术 中 一 种 人 机 接口 的 关键 技术 ， 具 有 重要 的 研究 意义 和 广 
泛 的 应 用 价值 。 

语言 是 人 类 相互 交流 最 常用 、 最 有 效 、 最 重要 和 最 方便 的 通信 形式 ， 语 音 是 语言 
的 声学 表现 ， 与 机 器 进行 语音 交流 是 人 类 一 直 以 来 的 梦想 。 随 着 计算 机 技术 的 飞速 发 
展 ， 语 音 识别 技术 也 取得 突破 性 的 成 就 ， 人 与 机 器 用 自然 语言 进行 对 话 的 梦想 逐步 接 
近 实 现 。 语 音 识别 技术 的 应 用 范围 极为 广泛 ， 不 仅 涉及 日 常生 活 的 方方面面 ， 在 军事 
领域 也 发 挥 着 极其 重要 的 作用 。 它 是 信息 社会 朝 着 智能 化 和 自动 化 发 展 的 关键 技术 ， 
使 人 们 对 信息 的 处 理 和 获取 更 加 便捷 ， 从 而 提高 人 们 的 工作 效率 。 


1.5.3.1 语音 识别 技术 的 发 展 


语音 识别 技术 起 始 于 20 世纪 50 年 代 。 这 一 时 期 ， 语 音 识 别 的 研究 主要 集中 在 对 
元 音 、 辅 音 、 数 字 以 及 孤立 词 的 识别 。 

60 年 代 ， 语 音 识 别 研究 取得 实质 性 进展 。 线 性 预测 分 析 和 动态 规划 的 提出 较 好 
地 解决 了 语音 信号 模型 的 产生 和 语音 信号 不 等 长 两 个 问题 ， 并 通过 语音 信号 的 线性 预 
测 编码 ， 有 效 地 解决 了 语音 信号 的 特征 提取 。 

TER, 语音 识别 技术 取得 突破 性 进展 。 基 于 动态 规划 的 动态 时 间 规 整 (Dynamic 
Time Warping, DTW) 技术 基本 成 熟 ， 特 别提 出 了 矢量 量化 (Vector Quantization, 
VQ) 和 隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 理论 。 

80 年 代 ， 语 音 识别 任务 开始 从 孤立 词 、 连 接 词 的 识别 转向 大 词汇 量 、 非 特定 
人 、 连 续 语音 的 识别 ， 识 别 算法 也 从 传统 的 基于 标准 模板 匹配 的 方法 转向 基于 统计 
模型 的 方法 。 在 声学 模型 方面 ， 由 于 HMM 能 够 很 好 地 描述 语音 时 变性 和 平稳 性 ， 
它 开 始 被 广泛 应 用 于 大 词汇 量 连续 语音 识别 (Large Vocabulary Continuous Speech 
Recognition, LVCSR) 的 声学 建 模 ， 在 语言 模型 方面 ， 以 N 元 文法 为 代表 的 统计 语 
言 模型 开始 广泛 应 用 于 语音 识别 系统 。 在 这 一 阶段 ， 基 于 HMM/VQ、HMM/ 高 斯 混 
合 模型 、HMM/ 人 工 神 经 网 络 的 语音 建 模 方法 开始 广泛 应 用 于 LVCSR 系统 ， 语 音 识 
别 技术 取得 新 突破 。 

90 年 代 以 后 ， 伴 随 着 语音 识别 系统 走向 实用 化 ， 语 音 识别 在 细 化 模型 的 设计 、 
参数 提取 和 优化 、 系 统 的 自 适应 方面 取得 较 大 进展 。 同 时 ， 人 们 更 多 地 关注 话 者 自 适 
应 、 听 觉 模型 、 快 速 搜索 识别 算法 以 及 进一步 的 语言 模型 的 研究 等 课题 。 此 外 ， 语 音 
识别 技术 开始 与 其 他 领域 相关 技术 进行 结合 ， 以 提高 识别 的 准确 率 ， 便 于 实现 语音 识 
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别 技术 的 产品 化 。 
15.3.2 ”语音 识别 基础 


语音 识别 是 将 人 类 的 声音 信号 转化 为 文字 或 者 指令 的 过 程 。 语 音 识别 以 语音 为 研 
究 对 象 ， 它 是 语音 信号 处 理 的 一 个 重要 研究 方向 ， 是 模式 识别 的 一 个 分 支 。 语 音 识 别 
的 研究 涉及 微机 技术 、 人 工 智 能 、 数 字 信号 处 理 、 模 式 识别 、 声 学 、 语 言 学 和 认 知 等 
许多 学 科 领 域 ， 是 一 个 多 学 科 综合 性 研究 领域 。 

根据 在 不 同 限制 条 件 下 的 研究 任务 ， 产 生 了 不 同 的 研究 领域 。 这 些 领域 包括 : 根 
据 对 说 话 人 说 话 方式 的 要 求 ， 可 分 为 孤立 字 〈 词 ) 、 连 接 词 和 连续 语音 识别 系统 ， 根 
据 对 说 话 人 的 依赖 程度 , 可 分 为 特定 人 和 非特 定 人 语音 识别 系统 ; 根据 词汇 量 的 大 小 ， 
可 分 为 小 词汇 量 、 中 等 词汇 量 、 大 词汇 量 以 及 无 限 词汇 量 语音 识别 系统 。 


1.5.3.3 语音 识别 基本 原理 


从 语音 识别 模型 的 角度 讲 ， 主 流 的 语音 识别 系统 理论 是 建立 在 统计 模式 识别 基 
础 之 上 的 。 语 音 识别 的 目标 是 利用 语音 学 与 语言 学 信息 ， 把 输入 的 语音 特征 向 量 序列 
Xx wp， …，x7 转 化 成 词 序列 fw，w，…，Wx 并 输出 。 基 于 最 大 后 验 概率 的 语 
音 识 别 模型 如 下 式 所 示 : 


W =argmax WIX a 


er) P(X) 
=argmax {P(X|17) P(W)} (1:2) 
= arg max {log P(X|I7) + AlogP(W)} 


上 式 表明 ,要 寻找 最 可 能 的 词 序列 语 音 识别 基本 原理 ,应 该 使 P XI) 与 P(W) 
的 乘积 达到 最 大 。 其 中 ，P (XIW) 是 特征 矢量 序列 工 在 给 定 球 条 件 下 的 条 件 概率 ， 
由 声学 模型 决定 。P (WW) 是 丈 独 立 于 语音 特征 矢量 的 先 验 概率 ， 由 语言 模型 决定 。 
由 于 将 概率 取 对 数 不 影 响 政 的 选取 ， 第 四 个 等 式 成 立 。log PAM 与 log PCW) 分 
别 表示 声学 得 分 与 语言 得 分 ， 且 分 别 通过 声学 模型 与 语言 模型 计算 得 到 。4 是 平衡 声 
学 模型 与 语言 模型 的 权重 。 从 语音 识别 系统 构成 的 角度 讲 ， 一 个 完整 的 语音 识别 系统 
包括 特征 提取 、 声 学 模型 、 语 言 模型 、 搜 索 算法 等 模块 。 语 音 识别 系统 本 质 上 是 一 种 
多 维 模式 识别 系统 ， 对 于 不 同 的 语音 识别 系统 ， 人 们 所 采用 的 具体 识别 方法 及 技术 不 
同 ， 但 其 基本 原理 都 是 相同 的 ， 即 将 采集 到 的 语音 信号 送 到 特征 提取 模块 处 理 ， 将 所 
得 到 的 语音 特征 参数 送 入 模型 库 模块 ， 由 声音 模式 匹配 模块 根据 模型 库 对 该 段 语音 进 
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行 识别 ， 最 后 得 出 识别 结果 。 

语音 识别 系统 基本 原理 框图 如 图 1-16 所 示 ， 其 中 : 预 处 理 模块 滤 除 原始 语音 信 
号 中 的 次 要 信息 及 背景 噪音 等 ， 包 括 抗 混 登 滤 波 、 预 加 重 、 模 / 数 转换 、 自 动 增益 控 
制 等 处 理 过 程 ， 将 语音 信号 数字 化 ; 特征 提取 模块 对 语音 的 声学 参数 进行 分 析 后 提取 
出 语音 特征 参数 , 形成 特征 矢量 序列 。 语音 识别 系统 常用 的 特征 参数 有 短 时 平均 幅度 、 
短 时 平均 能 量 、 线 性 预测 编码 系数 、 短 时 频谱 等 。 特征 提取 和 选择 是 构建 系统 的 关键 ， 
对 识别 效果 极为 重要 。 
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参考 模式 库 
图 1-16 语音 识别 基本 原理 





由 于 语音 信号 本 质 上 属于 非 平 稳 信号 ， 目 前 对 语音 信号 的 分 析 是 建立 在 短 时 平稳 
性 假设 上 的 。 在 对 语音 信号 做 短 时 平稳 假设 后 ， 通 过 对 语音 信号 进行 加 窗 ， 实 现 短 时 
语音 片段 上 的 特征 提取 。 这 些 短 时 片段 被 称 为 帧 ， 以 帧 为 单位 的 特征 序列 构成 语音 识 
别 系统 的 输入 。 由 于 梅 尔 倒 谱系 数 及 感知 线性 预测 系数 能 够 从 人 耳 听 觉 特性 的 角度 准 
确 刻 画 语音 信号 ， 已 经 成 为 目前 主流 的 语音 特征 。 为 补偿 帧 间 独 立 性 假设 ， 人 们 在 使 
用 梅 尔 倒 谱系 数 及 感知 线性 预测 系数 时 ， 通 常 加 上 它们 的 一 阶 、 二 阶 差分 ， 以 引入 信 
号 特征 的 动态 特征 。 

声学 模型 是 语音 识别 系统 中 最 为 重要 的 部 分 之 一 。 声 学 建 模 涉及 建 模 单元 选取 、 
模型 状态 聚 类 、 模 型 参数 估计 等 很 多 方面 。 在 目前 的 LVCSR 系统 中 ， 普 遍 采 用 上 下 
文 相关 的 模型 作为 基本 建 模 单元 ， 以 刻画 连续 语音 的 协同 发 音 现象 。 在 考虑 了 语 境 的 
影响 后 ， 声 学 模型 的 数量 急剧 增加 ，LVCSR 系统 通常 采用 状态 聚 类 的 方法 压缩 声学 参 
数 的 数量 ， 以 简化 模型 的 训练 。 在 训练 过 程 中 ， 系 统 对 若干 次 训练 语音 进行 预 处 理 ， 
并 通过 特征 提取 得 到 特征 矢量 序列 , 然后 由 特征 建 模 模块 建立 训练 语音 的 参考 模式 库 。 

搜索 是 在 指定 的 空间 当中 ， 按 照 一 定 的 优化 准则 ， 寻 找 最 优 词 序列 的 过 程 。 搜 索 
的 本 质 是 问题 求解 ， 广 泛 应 用 于 语音 识别 、 机 器 翻译 等 人 工 智能 和 模式 识别 的 各 个 领 
域 。 它 通过 利用 已 掌握 的 知识 〈 声 学 知识 、 语 音 学 知识 、 词 典 知识 、 语 言 模型 知识 等 ) ， 
在 状态 〈 从 高 层 至 底层 依次 为 词 、 声 学 模型 、HMM 状态 ) 空间 中 找到 最 优 的 状态 序 
列 。 最 终 的 词 序列 是 对 输入 的 语音 信号 在 一 定 准则 下 的 一 个 最 优 描述 。 在 识别 阶段 ， 
将 输入 语音 的 特征 矢量 参数 同 训练 得 到 的 参考 模板 库 中 的 模式 进行 相似 性 度量 比较 ， 
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将 相似 度 最 高 模式 所 属 的 类 别 作 为 识别 中 间 候 选 结果 输出 。 为 了 提高 识别 的 正确 率 ， 
在 后 处 理 模块 中 对 上 述 得 到 的 候选 识别 结果 继续 处 理 ， 包 括 通过 Lattice 重 打分 融合 
更 高 元 的 语言 模型 、 通 过 置信 度 度量 得 到 识别 结果 的 可 靠 程度 等 。 最终 通 过 增加 约束 ， 
得 到 更 可 靠 的 识别 结果 。 


15.3.4 ”声学 建 模 方法 


常用 的 声学 建 模 方法 包含 以 下 三 种 : 基于 模式 匹配 的 动态 时 间 规 整 法 (DTW) ~ 
隐 马 尔 可 夫 模 型 法 (OMM) 和 基于 人 工 神经 网 络 识别 法 (ANN) 。 

(1) DTW 是 较 早 的 一 种 模式 匹配 方法 。 它 基于 动态 规划 的 思想 ， 解 决 孤 立 词语 
音 识别 中 的 语音 信号 特征 参数 序列 比较 时 长 度 不 一 的 模板 匹配 问题 。 在 实际 应 用 中 ， 
DTW 通过 计算 已 预 处 理 和 分 帧 的 语音 信号 与 参考 模板 之 间 的 相似 度 ， 再 按照 某 种 距 
离 测 度 计算 出 模板 间 的 相似 度 并 选择 最 佳 路 径 。 

(2) HMM 是 对 语音 信号 的 时 间 序 列 结构 所 建立 的 统计 模型 ， 它 是 在 隐 马 尔 可 
夫 链 的 基础 上 发 展 起 来 的 ， 是 一 种 基于 参数 模型 的 统计 识别 方法 。HMM 可 模仿 人 的 
言语 过 程 ， 可 视 作 一 个 双重 随机 过 程 : 一 个 是 用 具有 有 限 状态 数 的 隐 马 尔 可 夫 链 来 模 
拟 语音 信号 统计 特性 变化 的 隐 含 的 随机 过 程 ， 另 一 个 是 与 隐 马 尔 可 夫 链 的 每 一 个 状态 
相关 联 的 观测 序列 的 随机 过 程 。 

(3) ANN 以 数学 模型 模拟 神经 元 活动 ， 将 人 工 神 经 网 络 中 大 量 神经 元 并 行 分 布 
运算 的 原理 、 高 效 的 学 习 算法 以 及 对 人 的 认 知 系统 模仿 能 力 充分 运用 到 语音 识别 领 
域 ， 并 结合 神经 网 络 和 隐 马 尔 可 夫 模型 的 识别 算法 ， 克 服 了 ANN 在 描述 语音 信号 时 
间 动 态 特性 方面 的 缺点 ， 进 一 步 提高 了 语音 识别 的 鲁 棒 性 和 准确 率 。 其 中 成 功 的 方法 
就 是 在 混合 模型 中 用 ANN 替代 高 斯 混合 模型 估计 音素 或 状态 的 后 验 概率 。2011 E, 
微软 以 深度 神经 网 络 替代 多 层 感 知 机 形成 的 混合 模型 系统 ， 大 大 提高 了 语音 识别 的 准 
确 率 。 


153.5 语音 识别 的 应 用 


语音 识别 技术 有 着 非常 广泛 的 应 用 领域 和 市 场 前 景 。 在 语音 输入 控制 系统 中 ， 它 
使 得 人 们 可 以 甩 掉 键盘 ， 通 过 识别 语音 中 的 要 求 、 请 求 、 命 令 或 询问 来 做 出 正确 的 响 
应 ， 这 样 既 可 以 克服 人 工 键盘 输入 速度 慢 ， 极 易 出 差错 的 缺点 ， 又 有 利于 缩短 系统 的 
反应 时 间 ， 使 人 机 交流 变 得 简便 易 行 ， 比 如 用 于 声控 语音 拨号 系统 、 声 控 智 能 玩具 、 
智能 家 电 等 领域 。 在 智能 对 话 查 询 系统 中 ， 人 们 通过 语音 命令 ， 可 以 方便 地 从 远 端 的 
数据 库 系 统 中 查询 与 提取 有 关 信 息 ， 享 受 自然 、 友 好 的 数据 库 检索 服务 ， 例 如 信息 网 
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络 查询 、 医 疗 服务 、 银 行 服务 等 。 语 音 识别 技术 还 可 以 应 用 于 自动 口语 翻译 ， 即 通过 
将 口语 识别 技术 、 机 器 翻译 技术 、 语 音 合成 技术 等 结合 ， 可 将 一 种 语言 的 语音 输入 翻 
译 为 另 一 种 语言 的 语音 输出 ， 实 现 跨 语言 交流 。 

语音 识别 技术 在 军事 领域 里 也 有 着 极为 重要 的 应 用 价值 和 极其 广阔 的 应 用 空间 。 
一 些 语音 识别 技术 就 是 着 眼 于 军事 活动 而 研发 , 并 在 军事 领域 率先 应 用 、 首 获 成 效 的 。 
军事 应 用 对 语音 识别 系统 的 识别 精度 、 响 应 时 间 、 恶 劣 环境 下 的 稳定 性 都 提出 了 更 高 
的 要 求 。 目 前 ， 语 音 识别 技术 已 在 军事 指挥 和 控制 自动 化 方面 得 以 应 用 。 比 如 ， 将 语 
音 识别 技术 应 用 于 航空 飞行 控制 ， 可 快速 提高 作战 效率 和 减轻 飞行 员 的 工作 负担 ， 飞 
行 员 利用 语音 输入 来 代 蔡 传统 的 手动 操作 和 控制 各 种 开关 和 设备 ， 以 及 重新 改编 或 排 
列 显示 器 上 的 显示 信息 等 ， 可 使 其 把 时 间 和 精力 集中 于 对 攻击 目标 的 判断 和 完成 其 他 
操作 上 来 ， 以 便 更 快 获得 信息 ， 从 而 发 挥 战 术 优 势 。 


1.5.4 视频 识别 


视频 识别 主要 包括 前 端 视频 信息 的 采集 及 传输 、 中 间 的 视频 检测 和 后 端的 分 析 处 
理 三 个 环节 。 视 频 识 别 需要 前 端 视频 采集 摄像 机 提供 清晰 稳定 的 视频 信号 ， 视 频 信号 
质量 将 直接 影响 到 视频 识别 的 效果 。 

视频 识别 系统 要 解决 的 问题 有 两 个 : 一 个 是 将 安防 操作 人 员 从 繁杂 而 枯燥 的 “ 果 
屏幕 ”任务 解脱 出 来 ， 由 机 器 来 完成 这 部 分 工作 ， 另 一 个 是 为 在 海量 的 视频 数据 快速 
搜索 到 想 要 找 的 图 像 。 对 于 上 述 两 个 问题 ， 视 频 分 析 厂 家 经 常 提 到 的 案例 是 ， 操 作 人 
员 盯 着 屏幕 电视 墙 超过 10 分 钟 后 将 漏 掉 90% 的 视频 信息 而 使 这 项 工作 失去 意义 16 
敦 地 铁 案 中 ， 安 保 人 员 花 了 70 个 工时 才 在 大 量 磁带 中 找到 需要 的 信息 。 

智能 视频 识别 主要 优势 在 于 三 点 : 快速 的 反应 时 间 一 一 毫秒 级 的 报警 触发 反应 时 
间 ， 更 有 效 的 监视 一 一 安保 操作 员 只 需要 注意 相关 信息 ; 以 及 强大 的 数据 检索 和 分 析 
功能 ， 能 提供 快速 的 反应 时 间 和 调查 时 间 。 


1.5.4.1 视频 分 析 方 法 概述 


视频 内 容 分 析 技 术 通过 对 可 视 的 监视 摄像 机 视频 图 像 进 行 分 析 , 并 具备 对 风 、 璀 、 
雪 、 落 叶 、 飞 鸟 、 飘 动 的 旗帜 等 多 种 背景 的 过 滤 能 力 ， 通 过 建立 人 类 活动 的 模型 ， 借 
助 计算 机 的 高 速 计算 能 力 使 用 各 种 过 滤器 ， 排 除 监视 场景 中 非 人 类 的 干扰 因素 ， 准 确 
判断 人 类 在 视频 监视 图 像 中 的 各 种 活动 。 

视频 分 析 方 法 主要 有 两 类 : 一 类 是 背景 减 除法 ， 另 一 类 是 时 间 差 分 法 。 





第 1 章 大 数据 、 数 据 挖掘 与 智慧 运营 综述 


1. 背景 减 除法 

背景 减 除法 是 利用 当前 图 像 和 背景 图 像 的 差分 (SAD) 来 检测 出 运动 区 域 的 一 种 
方法 。 可 以 提供 比较 完整 的 运动 目标 特征 数据 。 精 确 度 和 灵敏 度 比较 高 ， 具 有 良好 的 
性 能 表现 。 

2. 时 间 差 分 法 

时 间 差 分 ， 本 书 认为 就 是 高 级 的 VMD， 又 称 相 邻 帧 差 法 ， 就 是 利用 视频 图 像 特 
征 ， 从 连续 得 到 的 视频 流 中 提取 所 需要 的 动态 目标 信息 。 时 间 差 分 方法 的 实质 就 是 利 
用 相 邻 帧 图 像 相 减 来 提取 前 景 目标 移动 的 信息 。 此 方法 不 能 完全 提取 所 有 相关 特征 象 
素 点 ， 在 运动 实体 内 部 可 能 产生 空洞 ， 智 能 检测 出 目标 的 边缘 。 


15.4.2 ”基于 深度 学 习 的 视频 技术 


深度 学 习 对 图 像 内 容 的 表达 十 分 有 效 ， 在 视频 的 内 容 表 达 上 也 应 用 相应 的 方法 。 
下 面 介绍 最 近 几 年 几 种 主流 的 技术 方法 。 

1. 基于 单 帧 的 识别 方法 

一 种 最 直接 的 方法 就 是 将 视频 进行 截 帧 ， 然 后 基于 图 像 粒 度 〈 单 帧 ) 进 行 深度 学 
习 表 达 ， 如 图 1-17 所 示 ， 视 频 的 某 一 帧 通过 网 络 获得 一 个 识别 结果 。 图 1-17 为 一 个 
典型 的 CNN 网 络 ， 红 色 拢 形 是 卷 积 层 ， 绿 色 是 归 一 化 层 ， 蓝 色 是 池 化 层 ， 黄 色 是 全 
连接 层 。 然 而 一 张 图 像 对 整个 视频 是 很 小 的 一 部 分 ， 特 别 当 这 帧 图 缺乏 区 分 度 ， 或 是 
存在 一 些 和 视频 主题 无 关 的 图 像 ， 则 会 让 分 类 器 摸 不 着 头脑 。 因 此 ， 学 习 视频 时 间 区 
域 上 的 表达 是 提高 视频 识别 的 主要 因素 。 当 然 ， 这 在 运动 性 强 的 视频 上 才 有 区 分 度 ， 
在 较 静 止 的 视频 上 则 只 能 靠 图 像 的 特征 了 。 
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图 1-17 典型 的 CNN 网 络 


2. 基于 CNN 扩展 网 络 的 识别 方法 
它 的 总 体 思 路 是 在 CNN 框架 中 寻找 时 间 区 域 上 的 某 个 模式 来 表达 局 部 运动 信息 ， 
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从 而 获得 总 体 识 别 性 能 的 提升 。 图 1-18 是 网 络 结构 ， 它 总 共有 三 层 ， 在 第 一 层 对 10 
帧 (大 概 三 分 之 一 秒 ) 图 像 序列 进行 MXNX3XT 的 卷 积 (其 中 MX 是 图 像 的 分 辩 率 ， 
3 是 图 像 的 3 个 颜色 通道 , 工 取 4, 是 参与 计算 的 帧 数 , 从 而 形成 在 时 间 轴 上 的 4 个 响应 )， 
在 第 2、 第 3 层 上 进行 T-2 的 时 间 卷 积 ， 那 么 在 第 3 层 包含 了 这 10 帧 图 片 的 所 有 时 
空 信息 。 该 网 络 在 不 同时 间 上 的 同一 层 网 络 参数 是 共享 参数 的 。 

它 的 总 体 精度 相对 单 帧 提高 了 2% 左右 ， 特 别 在 运动 丰富 的 视频 ， 如 摔跤 、 爬 杆 
等 强 运动 视频 类 型 中 有 较 大 幅度 的 提升 ， 从 而 也 证 明了 特征 中 运动 信息 对 识别 是 有 贡 
献 的 。 在 实现 时 ， 这 个 网 络 架 构 加 入 多 分 辨 的 处 理 方法 ， 可 以 提高 速度 。 


















































1-18 CNN 扩展 网 络 架构 


3. 双 路 CNN 的 识别 方法 

这 个 其 实 就 是 两 个 独立 的 神经 网 络 ， 最 后 再 把 两 个 模型 的 结果 平均 一 下 。 图 1-19 
是 一 个 双 路 CNN 网 络 ， 就 是 把 连续 几 帧 的 光 流 倒 起 来 作为 CNN 的 输入 。 另 外 ， 它 利 
用 Multi-Task Leaming 来 克服 数据 量 不 足 的 问题 。 其 实 就 是 CNN 的 最 后 一 层 连 到 多 个 
softmax 层 上 ， 对 应 不 同 的 数据 集 ， 这 样 就 可 以 在 多 个 数据 集 上 进行 multi-Task Leaming。 


Spatial stream ConvNet 








图 1-19 双 路 CNN 网 络 架构 
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4. 基于 LSTM 的 识别 方法 

它 的 基本 思想 是 用 LSTM 对 帧 的 CNN 最 后 一 层 的 激活 在 时 间 轴 上 进行 整合 。 这 
E, CRAH CNN 全 连接 层 后 的 最 后 特征 进行 融合 ， 是 因为 全 连接 层 后 的 高 层 特征 
进行 池 化 已 经 丢失 了 空间 特征 在 时 间 轴 上 的 信息 。 相 对 于 时 间 差 分 法 ， 一 方面 ， 它 可 
以 对 CNN 特征 进行 更 长 时 间 的 融合 ， 不 对 处 理 的 帧 数 加 以 上 限 ， 从 而 能 对 更 长 时 长 
的 视频 进行 表达 ; 另 一 方面 ， 时 间 差 分 法 没有 考虑 同一 次 进 网 络 帧 的 前 后 顺序 ， 而 本 
网 络 通过 LSTM 引入 的 记忆 单元 ， 可 以 有 效 地 表达 帧 的 先后 顺序 。 网 络 结构 如 图 1-20 
所 示 。 
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图 1-20 LSTM 网 络 架构 


图 1-20 中 红色 是 卷 积 网 络 ， 灰 色 是 LSTM 单元 ， 黄 色 是 softmax 分 类 器 。LSTM 
把 每 个 连续 帧 的 CNN 最 后 一 层 卷 积 特征 作为 输入 ， 从 左 向 右 推进 时 间 ， 从 下 到 上 通 
过 5 层 LSTM， 最 上 的 softmax 层 会 在 每 个 时 间 点 给 出 分 类 结果 。 同 样 ， 该 网 络 在 不 
同时 间 上 的 同一 层 网 络 参 数 是 共享 参数 。 在 训练 时 ， 视 频 的 分 类 结果 在 每 帧 都 进行 
BP (Back Propagation) ， 而 不 是 每 个 clip 进行 BP。 在 BP 时 ， 后 来 帧 梯度 的 权重 会 
增 大 ， 因 为 越 往 后 ，LSTM 的 内 部 状态 会 含有 更 多 的 信息 。 

在 实现 时 , 这 个 网 络 架构 可 以 加 入 光 流 特征 , 可 以 让 处 理 过 程 容忍 对 帧 进行 采样 ， 
因为 如 每 秒 一 帧 的 采样 已 经 丢失 了 帧 间 所 隐 含 的 运动 信息 ， 光 流 可 以 作为 补偿 。 





1.54.3 结语 


语音 和 视频 信息 的 识别 和 研究 工作 对 于 信息 化 社会 的 发 展 、 人 们 生活 水 平 的 提高 
等 方面 有 着 深远 的 意义 。 随 着 计算 机 信息 技术 的 不 断 发 展 ， 这 两 种 信息 的 识别 技术 将 
取得 更 重大 的 突破 ， 整 体 联合 系统 的 研究 也 将 更 加 深入 ， 语 音 和 视频 信息 的 识别 和 研 
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究 有 着 更 加 广阔 的 发 展 空间 。 


15.5 ”其 他 非 结构 化 数据 挖掘 


1.5.5.1 Web 数据 挖掘 


Web 挖掘 是 利用 数据 挖掘 技术 从 Web 文档 及 Web 服务 中 自动 发 现 并 提取 人 们 感 
兴趣 的 信息 。Web 挖掘 是 一 项 综合 技术 , 涉及 Internet HA, AT HAE. 计算 机 语言 学 、 
信息 学 、 统 计 学 等 多 个 领域 。 通 常 Web 挖掘 过 程 可 以 分 为 以 下 几 个 处 理 阶 段 : 资源 
发 现 、 数 据 抽取 及 数据 预 处 理 阶 段 ， 数 据 汇 总 及 模式 识别 阶段 、 分 析 验 证 阶段 。 

Web 上 的 数据 最 大 的 特点 就 是 半 结 构 化 。 由 于 Web 的 开放 性 、 动 态 性 与 异 构 性 
等 固有 特点 ， 要 从 这 些 分 散 的 、 异 构 的 、 没 有 统一 管理 的 海量 数据 中 快速 、 准 确 地 获 
取信 息 成 为 Web 挖掘 所 要 解决 的 一 个 难点 ， 也 使 得 用 于 Web 的 挖掘 技术 不 能 照搬 用 
于 数据 库 的 挖掘 技术 。 开 发 新 的 Web 挖掘 技术 以 及 对 Web 文档 进行 预 处 理 以 得 到 关 
于 文档 的 特征 表示 是 Web 挖掘 的 重点 。 

Web 数据 挖掘 应 考虑 以 下 问题 。 

〈1) 数 据 来 源 分 析 。 在 对 网 站 进行 数据 挖掘 时 , 所 需要 的 数据 主要 来 自 三 个 方面 : 
Web 服务 器 中 的 日 志文 件 、Web 服务 器 中 的 其 他 信息 以 及 客户 的 背景 信息 。 

(2) 异 构 数 据 环境 。Web 上 的 每 一 个 站 点 就 是 一 个 数据 源 ， 每 个 数据 源 都 是 异 
构 的 ， 因 而 每 一 个 站 点 之 间 信 息 和 信息 的 组 织 都 不 一 样 ， 这 就 构成 了 一 个 巨大 的 异 构 
数据 库 环 境 。 要 想 利用 这 些 数 据 进行 挖掘, 首先 要 研究 站 点 之 间 异 构 数据 的 集成 问题 
其 次 要 解决 Web 上 的 数据 查询 问题 。 

(3) 半 结 构 化 的 数据 结构 。Web 上 的 数据 没有 特定 的 模型 描述 ， 每 一 个 站 点 的 
数据 都 各 自 独立 设计 ， 并 且 数 据 本 身 具 有 自述 性 和 动态 可 变性 。 

(4) 解决 半 结 构 化 的 数据 源 问 题 。 面 向 Web 的 数据 挖掘 必须 以 半 结 构 化 模型 和 
半 结 构 化 数据 模型 抽取 技术 为 前 提 。 

(5) 文本 总 结 。 文 本 总 结 的 目的 是 对 文本 信息 进行 浓缩 ， 给 出 它 的 紧凑 描述 。 
文本 总 结 是 指 从 文档 中 抽取 关键 信息 ， 用 简洁 的 形式 对 文档 内 容 进行 摘要 或 解释 。 这 
样 用 户 不 需要 浏览 全 文 就 可 以 了 解 文档 或 文档 集合 的 总 体内 容 。 

Web 数据 有 三 种 类 型 HTML 标记 的 Web 文档 数据 、Web 文档 内 的 连接 的 结构 
数据 和 用 户 访问 数据 。 按照 对 应 的 数据 类 型 ，Web 挖掘 可 以 分 为 三 类 , 如 图 1-21 所 示 : 
内 容 挖掘 、 结 构 挖掘 、 用 户 访问 模式 挖掘。 如 表 1-3 所 示 : 三 类 Web 挖掘 的 对 比分 析 。 





第 1 章 大 数据 、 数 据 挖掘 与 智慧 运营 综述 








Web 挖 掘 




















4 
Web 访 问 挖掘 


搜索 结果 再 挖掘 | | 一 般 访问 模式 跟踪 | | 定制 的 使 用 跟踪 


图 1-21 Web 挖掘 分 类 


4 y 
Web 内 容 挖掘 Web 结 构 挖 掘 
































三 一 一 
Web 页 面 内 容 挖掘 





























表 1-3 Web 挖掘 分 类 对 比 


Web 内 容 挖掘 Web 结构 挖掘 Web 访问 挖掘 


下 方法 数据 库 方法 
无 结构 和 于 结构 化 数据 | 半 结构 化 数据 VO 结构 挖 所 | 用 户 访问 挖 所 


= Serverlog、 
自由 文本 、HTML 标记 文档 内 及 文档 
的 超 文本 HTML 标记 的 超 文 本 间 的 超 链接 Proxyserverlog. 
clientlog 


词 集 、 段 落 、 概 念 、 Blom | 
的 三 种 经 典 模型 


TFIDF、 统 计 、 机 器 学 习 、 
自然 语言 理解 


OEM omz | 


eae | 


关系 表 、 图 


统计 、 机 器 学 习 、 关 
联 规则 








模式 发 现 、 数 据 向 导 、 
页 面 权重 分 类 聚 | 用 户 个 性 化 、 自 适应 
主要 应 用 | 分 类 、 聚 类 、 模 式 发 现 Sed 站 点 创 类 、 模 式 发 现 “| web 站 点 、 商 业 决策 


1.5.5.2 ”空间 群 数据 挖掘 


空间 数据 挖掘 (Spatial Data Mining, SDM) 是 指 从 空间 数据 中 抽取 隐 含 的 知识 、 
空间 关系 、 空 间 及 与 非 空间 之 间 有 意义 的 特征 或 模式 。 空 间 数据 挖掘 功能 可 用 于 分 析 
和 解释 地 理 特 征 间 的 相互 关系 及 空间 模式 。 海 量 的 空间 数据 、 复 杂 的 空间 数据 类 型 和 
空间 访问 方法 及 对 空间 特征 间 关 系 能 力 的 描述 都 是 空间 数据 挖掘 的 难点 。 

1. 空间 分 析 的 层次 

第 一 是 空间 检索 ， 包 括 从 空间 位 置 检索 空间 物体 及 其 属性 和 从 属性 条 件 集 检索 
空间 物体 。 一 方面 ， “空间 索引 ”是 空间 检索 的 关键 技术 ， 是 否 能 有 效 地 从 大 型 GIS 
数据 库 中 检索 出 所 需 信息 ， 将 影响 GIS 的 分 析 能 力 。 另 一 方面 ， 空 间 物体 的 图 形 表 
达 也 是 空间 检索 的 重要 部 分 。 

第 二 是 空间 拓扑 全 加 分 析 ， 空 间 拓扑 合 加 实现 了 输入 特征 属性 的 合并 以 及 特征 属 
性 在 空间 上 的 连接 。 
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第 三 是 空间 模拟 分 析 ， 这 方面 的 研究 刚刚 起 步 。 

2. 空间 模型 分 析 

目前 多 数 研 究 工作 着 重 于 如 何 将 GIS 与 空间 模型 分 析 相 结合 ， 其 研究 可 分 三 类 : 

第 一 类 是 GIS 外 部 的 空间 模型 分 析 ， 将 GIS 当 作 一 个 通用 的 空间 数据 库 ， 而 空 
间 模 型 分 析 功 能 则 借助 于 其 他 软件 。 

第 二 类 是 GIS 内 部 的 空间 模型 分 析 ， 试 图 利用 GIS 软件 来 提供 空间 分 析 模拟 以 
及 发 展 适 用 于 问题 解决 模型 的 宏观 语言 。 这 种 方法 一 般 基 于 空间 分 析 的 复杂 性 与 多 样 
性 ， 易 于 理解 和 应 用 ， 但 由 于 GIS 软件 所 能 提供 的 空间 分 析 功 能 极为 有 限 ， 这 种 紧 
密 结合 的 空间 模型 分 析 方法 在 实际 GIS 的 设计 中 较 少 使 用 。 

第 三 类 是 混合 型 的 空间 模型 分 析 ， 其 宗旨 在 于 尽 可 能 地 利用 GIS 所 提供 的 功能 ， 
同时 也 充分 发 挥 GIS 使 用 者 的 能 动 性 。 

3. 空间 数据 挖 据 

空间 数据 挖掘 的 知识 类 型 大 体 包括 如 下 内 容 。 

(1) 一 般 几 何 知识 : 目标 的 数量 、 大 小 、 特 征 的 统计 特征 值 及 直方 图 等 可 视 化 





描述 。 

(2) 空间 分 布 规律 : 垂直 向 、 水 平 向 及 其 联合 向 的 分 布 规律 。 

G) 空间 关联 规则 : 空间 相 邻 、 相 连 、 共 生 、 包 含 等 空间 关联 规则 ， 空 间 聚 类 规 
则 、 空 间 特征 规则 、 空 间 区 分 规则 、 空 间 演 变 规 则 、 空 间 序 贯 模式 、 空 间 混沌 模式 。 

空间 数据 挖掘 的 具体 方法 有 : 统计 方法 、 泛 化 方法 、 聚 类 方法 、 空 间 分 析 方 法 、 
探测 性 的 数据 分 析 、 粗 集 方法 、 云 理论 、 图 像 分 析 和 模式 识别 。 


16 数据 挖掘 与 机 器 学 习 、 深 度 学 学 习 、 人 工 智能 
及 去 计算 | 


数据 挖掘 、 机 器 学 习 、 深 度 学 习 和 人 工 智 能 四 者 之 间 既 有 交集 也 有 不 同 ， 彼 此 之 
间 既 有 联系 和 互相 运用 ， 也 有 各 自 不 同 的 领域 和 应 用 。 而 云 计 算 的 分 布 式 存储 和 分 布 
式 计 算 促使 了 新 一 代数 据 挖掘 平台 的 变革 。 数 据 挖掘 是 一 门 交叉 性 很 强 的 学 科 ， 可 以 
用 到 机 器 学 习 算 法 以 及 传统 统计 的 方法 ， 最 终 目 的 是 要 从 数据 中 挖掘 到 需要 的 知识 ， 
从 而 指导 人 们 的 活动 。 数 据 挖掘 的 重点 在 于 应 用 ， 用 何 种 算法 并 不 是 很 重要 ， 关 键 是 
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要 能 够 满足 实际 应 用 背景 。 而 机 器 学 习 则 偏重 于 算法 本 身 的 设计 ， 通 俗 来 说 就 是 让 机 
器 自己 去 学 习 然后 通过 学 习 到 的 知识 来 指导 进一步 的 判断 。 用 一 堆 样 本 数据 让 计算 机 
进行 运算 ， 样 本 数据 可 以 是 有 类 标签 并 设计 惩罚 函数 ， 通 过 不 断 的 迭代 ， 机 器 就 学 会 
了 怎样 进行 分 类 ， 使 得 惩罚 最 小 ， 然 后 用 学 习 到 的 分 类 规则 进行 预测 等 活动 。 深 度 学 
习 是 机 器 学 习 领 域 的 一 类 方法 ， 很 多 时 候 都 是 指 深度 神经 网 络 方法 ， 例 如 深度 卷 积 网 
络 、 自 动 编码 器 、 深 度 玻 尔 兹 曼 机 。 很 多 有 关 深 度 学 习 的 应 用 是 在 图 像 识 别 / 语音 识 
别 领域 。 而 人 工 智能 是 四 个 概念 中 范围 最 广 的 一 个 ， 是 一 种 科技 领域 ， 讲 括 了 各 类 方 
法 与 算法 。 四 者 关系 如 图 1-22 所 示 。 


模式 识别 
(目的 ) 
神经 网 络 
ss (一 种 算法 模型 ) 
(一 种 方法 ， 偏 技术 ) ] 深度 学 习 
(一 种 算法 模型 ) 


人 工 智能 数据 挖掘 
〈 一 种 科技 领域 ) | 《一 种 方法 ， 偏 应 用 ， 站 在 商业 角度 ) 


知识 表示 、 推 理 、 自 然 语 言 处 理 、《〈 视 觉 ) 感知 …… 
图 1-22 ”数据 挖掘 、 机 器 学 习 、 深 度 学 习 和 人 工 智能 四 者 关系 





1.6.1 机 器 学 习 


机 器 学 习 考 察 计 算 机 如 何 基于 数据 学 习 《或 提高 它们 的 性 能 ) 。 其 主要 研究 领域 
之 一 是 计算 机 程序 基于 数据 自动 地 学 习 识 别 复杂 的 模式 ， 并 做 出 智能 的 决断 。 例 如 ， 
一 个 典型 的 机 器 学 习 问 题 是 为 计算 机 编制 程序 ， 使 之 从 一 组 实例 学 习 之 后 ， 能 够 自动 
地 识别 邮件 上 的 手写 体 邮 政 编码 。 

机 器 学 习 是 一 个 快速 成 长 的 学 科 。 这 里 ， 我 们 介绍 一 些 与 数据 挖掘 高 度 相 关 的 、 
经 典 的 机 器 学 习 问题 。 

1. 监督 学 习 ( Supervised Learning ) 

监督 学 习 , 基本 上 是 分 类 的 同义词 。 学 习 中 的 监督 来 自 训练 数据 集中 标记 的 实例 。 
例如 ， 在 邮政 编码 识别 问题 中 ， 一 组 手写 邮政 编码 图 像 与 其 对 应 的 机 器 可 读 的 转换 物 
用 作 训 练 实例 ， 监 督 分 类 模型 的 学 习 。 

2. 无 监督 学 习 (Unsupervised Learning ) 

无 监督 学 习 ， 本 质 上 是 聚 类 的 同义词 。 学 习 过 程 是 无 监督 的 ， 因 为 输入 实例 没有 
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此 类 标记 。 和 典型 的 ， 我 们 可 以 使 用 聚 类 发 现 数据 中 的 类 。 例 如 ， 一 个 无 监督 学 习 方法 
可 以 取 一 个 手写 数字 图 像 集合 作为 输入 。 假 设 它 找 出 了 10 SAR, 这 些 簇 可 以 分 
别 对 应 于 0 一 9 这 10 个 不 同 的 数字 。 然 而 ， 由 于 训练 数据 并 无 标记 ， 因 此 学 习 到 的 
模型 并 不 能 告诉 我 们 所 发 现 簇 的 语义 。 

3. 半 监 督学 习 ( Semi-supervised Learning ) 

半 监 督学 习 , 是 一 类 机 器 学 习 技 术 , 在 学 习 模 型 时 , 它 使 用 标记 的 和 未 标记 的 实例 。 
在 一 种 方法 中 , 标记 的 实例 用 来 学 习 类 模型 ， 而 未 标记 的 实例 用 来 进一步 改进 类 边界 。 
对 于 两 类 问题 ， 我 们 可 以 把 属于 一 个 类 的 实例 看 作 正 实例 ， 而 属于 另 一 个 类 的 实例 为 
负 实 例 。 在 图 1-23 中 ， 如 果 我 们 不 考虑 未 标记 的 实例 ， 则 虚线 是 分 隔 正 实例 和 负 实 
例 的 最 佳 决策 边界 。 使 用 未 标记 的 实例 ， 我 们 可 以 把 该 决策 边界 改进 为 实 线 边界 。 此 
外 ， 我 们 能 够 检测 出 右上 角 的 两 个 正 实例 可 能 是 噪声 或 离 群 点 ， 尽 管 它们 被 标记 了 。 





© “噪声 / 离 群 点 
e 
O 
O 负 实例 ----- 不 含 未 标记 实例 的 决策 边界 
@ 正 实例 — 包含 未 标记 实例 的 决策 边界 


1-23 半 监 督学 习 实例 


4. 主动 学 习 ( Active Learning ) 

主动 学 习 ， 是 一 种 机 器 学 习 方 法 ， 它 让 用 户 在 学 习 过 程 中 扮演 主动 角色 。 主 动 学 
习 方法 可 能 要 求 用 户 〈 如 领域 专家 ) 对 一 个 可 能 来 自 未 标记 的 实例 集 或 由 学 习 程序 合 
成 的 实例 进行 标记 。 给 定 可 以 要 求 标记 的 实例 数量 的 约束 ， 目 的 是 通过 主动 地 从 用 户 
获取 知识 来 提高 模型 质量 。 

你 可 能 已 经 看 出 ， 数 据 控 掘 与 机 器 学 习 有 许多 相似 之 处 。 对 于 分 类 和 聚 类 任务 ， 
机 器 学 习 研 究 通常 关注 模型 的 准确 率 。 除 准确 率 之 外 ， 数 据 挖 掘 研究 非常 强调 挖掘 方 
法 在 大 型 数据 集 上 的 有 效 性 和 可 伸缩 性 ， 以 及 处 理 复杂 数据 类 型 的 办 法 ， 开 发 新 的 、 
非 传统 的 方法 。 

实际 上 ， 机 器 学 习 和 数据 挖掘 技术 已 经 开始 在 多 媒体 、 计 算 机 图 形 学 、 计 算 机 网 
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络 乃 至 操作 系统 、 软 件 工程 等 计算 机 科学 的 众多 领域 中 发 挥 作用 ， 特 别 是 在 计算 机 视 
觉 和 自然 语言 处 理 领 域 ， 机 器 学 习 和 数据 挖掘 已 经 成 为 最 流行 、 最 热门 的 技术 ， 以 至 
于 在 这 些 领域 的 顶级 会 议 上 很 多 的 论文 都 与 机 器 学 习 和 数据 挖掘 技术 有 关 。 总 的 来 看 ， 
引入 机 器 学 习 和 数据 挖掘 技术 在 计算 机 科学 的 众多 分 支 领域 中 都 是 一 个 重要 趋势 。 

机 器 学 习 和 数据 挖掘 技术 还 是 很 多 交叉 学 科 的 重要 支撑 技术 。 例 如 ， 生 物 信息 学 
是 一 个 新 兴 的 交叉 学 科 ， 它 试图 利用 信息 科学 技术 来 研究 从 DNA 到 基因 、 基 因 表 达 、 
蛋白 质 、 基 因 电 路 、 细 胞 、 生 理 表现 等 一 系列 环节 上 的 现象 和 规律 。 随 着 人 类 基因 组 
计划 的 实施 ， 以 及 基因 药物 的 美好 前 景 ， 生 物 信息 学 得 到 了 蓬勃 发 展 。 实 际 上 ， 从 信 
息 科 学 技术 的 角度 来 看 ， 生 物 信 息 学 的 研究 是 一 个 从 “数据 ”到 “发 现 ” 的 过 程 ， 这 
中 间 包 括 数据 获取 、 数 据 管理 、 数 据 分 析 、 仿 真实 验 等 环节 ， 而 “数据 分 析 ” 这 个 环 
节 正 是 机 器 学 习 和 数据 挖掘 技术 的 舞台 。 





16.2 深度 学 习 


机 器 学 习 是 人 工 智能 的 一 个 分 支 ， 而 在 很 多 时 候 ， 几 乎 成 为 人 工 智 能 的 代名词 。 
简单 来 说 ， 机 器 学 习 就 是 通过 算法 ， 使 得 机 器 能 从 大 量 历史 数据 中 学 习 规 律 ， 从 而 对 
新 的 样本 做 智能 识别 或 对 未 来 做 预测 。 自 20 世纪 80 年 代 末 期 以 来 ， 机 器 学 习 的 发 展 
大 致 经 历 了 两 次 浪潮 : REI (Shallow Leaming) 和 深度 学 习 (Deep Learning) 。 

1. 第 一 次 浪潮 : 浅 层 学 习 

20 世纪 80 年 代 末 期 ， 用 于 人 工 神经 网 络 的 反 向 传播 算法 〈 也 叫 Back Propagation 
算法 或 者 BP 算法 ) 的 发 明 ， 给 机 器 学 习 带 来 了 希望 ， 掀 起 了 基于 统计 模型 的 机 器 学 
习 热 潮 。 这 个 热潮 一 直 持续 到 今天 。 人 们 发 现 ， 利 用 BP 算法 可 以 让 一 个 人 工 神 经 网 
络 模型 从 大 量 训练 样本 中 学 习 出 统计 规律 ， 从 而 对 未 知事 件 做 预测 。 这 种 基于 统计 的 
机 器 学 习 方 法 比 起 过 去 基于 人 工 规 则 的 系统 ， 在 很 多 方面 显示 出 优越 性 。 这 个 时 候 的 
人 工 神经 网 络 ， 虽 然 也 被 称 作 多 层 感 知 机 器 (Multi-layer Perceptron) ， 但 实际 上 是 
一 种 只 含有 一 层 隐 层 结 点 的 浅 层 模型 。 

90 年 代 ， 各 种 各 样 的 浅 层 机 器 学 习 模型 相继 被 提出 ， 比 如 支撑 向 量 机 〈SVM， 
Support Vector Machines) 、Boosting、 最 大 焙 方 法 〈 如 LR, Logistic Regression) 等 。 
这 些 模 型 的 结构 基本 上 可 以 看 成 带 有 一 层 隐 层 结 点 (如 SVM, Boosting) ， 或 没有 隐 
层 结 点 (如 LR) 。 这些 模 型 无 论 是 理论 分 析 还 是 应 用 都 获得 了 巨大 的 成 功 。 相 比 之 下 ， 
由 于 理论 分 析 的 难度 ， 加 上 训练 方法 需要 很 多 经 验 和 技巧 ， 所 以 这 个 时 期 浅 层 人 工 神 
经 网 络 反而 相对 较为 沉寂 。 
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2000 年 以 来 互联 网 的 高 速 发 展 ,对 大 数据 的 智能 化 分 析 和 预测 提出 了 巨大 需求 ， 
浅 层 学 习 模型 在 互联 网 应 用 上 获得 了 巨大 成 功 。 最 成 功 的 应 用 包括 搜索 广告 系统 〈 比 
如 Google 的 AdWords. A REM RAR ASE 的 广告 单 击 率 CTR 预 估 、 网 页 搜索 排序 ( 例 
如 Yahoo 和 微软 的 搜索 引擎 ) 、 垃 圾 邮件 过 滤 系 统 、 基 于 内 容 的 推荐 系统 等 。 
2. 第 二 次 浪潮 : 深度 学 习 
2006 年 ， 加 拿 大 多 伦 多 大 学 教授 、 机 器 学 习 领 域 泰斗 一 一 Geoffrey Hinton 和 他 
的 学 生 Ruslan Salakhutdinov 在 顶尖 学 术 刊 物 《 科 学 》 上 发 表 了 一 篇 文章 ， 开 启 了 深 
度 学 习 在 学 术 界 和 工业 界 的 浪潮 。 这 篇 文章 有 以 下 两 个 主要 的 信息 。 
(1) 很 多 隐 层 的 人 工 神经 网 络 具 有 优异 的 特征 学 习 能 力 ， 学 习 得 到 的 特征 对 数 
据 有 更 本 质 的 刻画 ， 从 而 有 利于 可 视 化 或 分 类 。 
(2) 深度 神经 网 络 在 训练 上 的 难度 ， 可 以 通过 “ 逐 层 初始 化 ” (Layer-wise Pre- 
training) 来 有 效 克 服 。 在 这 篇 文章 中 ， 逐 层 初 始 化 是 通过 无 监督 学 习 来 实现 的 。 





图 1-24 深度 学 习 


自 2006 年 以 来 , 深度 学 习 ( 如 图 1-24 所 示 ) 在 学 术 界 持续 升温 。 美 国 斯 坦 福 大 学 、 
纽约 大 学 、 加 拿 大 蒙特 利 尔 大 学 等 成 为 研究 深度 学 习 的 重镇 。2010 年 ， 美 国 国防 部 
DARPA 计划 首次 资助 深度 学 习 项 目 ， 参 与 方 有 美国 斯 坦 福 大 学 、 纽 约 大 学 和 NEC 
美国 研究 院 。 支 持 深度 学 习 的 一 个 重要 依据 ， 就 是 脑 神经 系统 的 确 具有 丰富 的 层次 结 
构 。 一 个 最 著名 的 例子 就 是 Hubel-Wiesel 模型 ， 由 于 揭示 了 视觉 神经 的 机 理 而 曾 获得 
诺 贝 尔 医 学 或 生理 学 奖 。 除 了 仿生 学 的 角度 ， 目 前 深度 学 习 的 理论 研究 还 基本 处 于 起 
步 阶段 ， 但 在 应 用 领域 已 显现 出 巨大 能 量 。2011 年 以 来 ， 微 软 研究 院 和 Google 的 语 
音 识 别 研究 人 员 先 后 采用 DNN 技术 降低 语音 识别 错误 率 20%~30%， 是 语音 识别 领 
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域 十 多 年 来 最 大 的 突破 性 进展 。2012 年 ，DNN 技术 在 图 像 识别 领域 取得 惊人 的 效果 ， 
在 ImageNet 评测 上 将 错误 率 从 26% 降低 到 15%。 在 这 一 年 ， DNN 还 被 应 用 于 制药 
公司 的 Druge Activity 预测 问题 ， 并 获得 世界 最 好 成 绩 ， 这 一 重要 成 果 被 《纽约 时 报 》 
报道 。 今 天 Google、 微 软 、 百 度 等 知名 的 拥有 大 数据 的 高 科技 公司 争 相 投入 资源 ， 
占领 深度 学 习 的 技术 制高点 ， 正 是 因为 它们 都 看 到 了 在 大 数据 时 代 ， 更 加 复杂 且 更 加 
强大 的 深度 模型 能 深刻 揭示 海量 数据 里 所 承载 的 复杂 而 丰富 的 信息 ， 并 对 未 来 或 未 知 
事件 做 更 精准 的 预测 。 

深度 学 习 和 机 器 学 习 的 区 别 是: 深度 学 习 是 机 器 学 习 研 究 中 的 一 个 新 的 领域 ， 其 
动机 在 于 建立 、 模 拟人 脑 进行 分 析 学 习 的 神经 网 络 ， 它 模仿 人 脑 的 机 制 来 解释 数据 ， 
例如 图 像 、 声 音 和 文本 。 

同 机 器 学 习 方法 一 样 ， 深 度 机 器 学 习 方 法 也 有 监督 学 习 与 无 监督 学 习 之 分 。 不 同 
的 学 习 框 架 下 建立 的 学 习 模 型 很 是 不 同 。 例 如 ， 卷 积 神经 网 络 (Convolutional Neural 
Networks，CNNs) 就 是 一 种 深度 监督 学 习 下 的 机 器 学 习 模 型 ， 而 深度 置信 网 (Deep 
Belief Nets，DBNs) 是 一 种 无 监督 学 习 下 的 机 器 学 习 模型 。 


1.6.3 人工 智能 


人 工 智能 ， 即 机 器 所 赋予 人 的 智能 。 

1956 年 ， 几 个 计算 机 科学 家 相聚 在 达 特 茅 斯 会 议 (Dartmouth Conferences) ， 提 
出 了 “人 工 智 能 ”的 概念 。 其 后 ， 人 工 智 能 就 一 直 蒙 绕 于 人 们 的 脑海 之 中 ， 并 在 科研 
实验 室 中 慢 慢 孵 化 。 之 后 的 几 十 年 ， 人 工 智能 一 直 在 两 极 反 转 ， 或 被 称 作 人 类 文明 耀 
眼 未 来 的 预言 ， 或 被 当成 技术 疯子 的 狂想 扔 到 垃圾 堆 里 。 坦 白 说 ， 直 到 2012 年 ， 这 
两 种 声音 还 同时 存在 。 

过 去 几 年 ， 尤 其 是 2015 年 以 来 ， 人工 智能 开始 大 爆发 。 很 大 一 部 分 是 由 于 GPU 
的 广泛 应 用 ， 使 得 并 行 计 算 变 得 更 快 、 更 便宜 、 更 有 效 。 当 然 ， 无 限 拓展 的 存储 能 力 
和 又 然 爆发 的 数据 洪流 (大 数据 ) 的 组 合 拳 ， 也 使 得 图 像 数 据 、 文 本 数据 、 交 易 数 据 、 
映射 数据 全 面 海量 爆发 。 

人 工 智 能 可 主要 分 为 人 类 的 人 工 智 能 和 非 人 类 的 人 工 智能 。 人 类 人 工 智 能 的 思考 
和 推理 就 像 人 的 思维 ， 可 以 通过 实践 和 学 习 获 得 知识 和 能 力 。 非 人 类 人 工 智 能 主要 通 
过 感知 、 知 觉 等 专业 技能 执行 特定 任务 ， 解 决 问题 的 重要 途径 是 将 所 有 可 能 构建 成 搜 
索 树 ， 通 过 比 对 、 决 策 寻 找 最 优 方 案 。 对 于 这 类 人 工 智 能 来 说 ， 背 后 的 数据 库 越 强大 ， 
它 的 “水 ”就 越 深 ， 但 能 力也 基本 在 预期 范围 之 内 。 
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与 人 工 规则 构造 特征 的 方法 相 比 ， 利 用 大 数据 来 学 习 的 特征 ， 更 能 够 刻画 数据 的 
丰富 内 在 信息 。 深 度 学 习 ， 让 人 工 智能 有 一 个 光明 的 未 来 。 

深度 学 习 已 经 实现 了 许多 机 器 学 习 方面 的 实际 应 用 和 人 工 智 能 领域 的 全 面 推广 。 
深度 学 习 解决 了 许多 任务 让 各 种 机 器 助手 看 起 来 有 可 能 实现 。 无 人 驾驶 机 车 、 更 好 的 
预防 医疗 ， 甚 至 是 更 好 的 推荐 电影 ， 如 今 都 已 实现 或 即将 实现 (如 图 1-25 谷歌 超级 
人 工 智能 系统 ) 。 有 了 深度 学 习 ， 人 工 智能 甚至 可 以 达到 我 们 长 期 所 想象 的 、 科 幻 小 
说 中 呈现 的 状态 。 

谷歌 超级 人 工 智能 系统 AlphaGo， 在 与 顶尖 围棋 高 手 李 世 石 的 较量 中 取得 胜利 ， 
是 人 工 智能 发 展 史上 重要 的 里 程 碑 ， 显 示 出 人 工 智能 在 复杂 的 博弈 游戏 中 开始 挑战 最 
高 级 别 的 人 类 选手 。 “深度 学 习 ” 将 为 人 工 智能 打开 一 扇 新 的 大 门 。 


{62 AlphaGo 


图 1-25 谷歌 超级 人 工 智能 系统 AlphaGo 


164 云 计算 


Bits (Cloud Computing) ， 是 一 种 基于 互联 网 的 计算 方式 ， 通 过 这 种 方式 ， 
共享 的 软 硬 件 资源 和 信息 可 以 按 需求 提供 给 计算 机 各 种 终端 和 其 他 设备 。 云 计算 是 继 
20 世纪 80 年 代 大 型 计算 机 到 客户 端 - 服务 器 的 大 转变 之 后 的 又 一 种 巨变 。 用 户 不 再 
需要 了 解 “ 云 ”中 基础 设施 的 细节 , 不必 具有 相应 的 专业 知识 ， 也 无 须 直 接 进行 控制 。 
云 计 算 描述 了 一 种 基于 互联 网 的 新 IT 服务 增加 、 使 用 和 交付 模式 ， 通 常 涉及 通过 互 
联网 来 提供 动态 易 扩 展 而 且 经 常 是 虚拟 化 的 资源 。 

云 是 互联 网 的 一 种 比喻 说 法 。 过 去 往往 用 云 来 表示 电信 网 ， 后 来 也 用 来 表示 互联 
网 和 底层 基础 设施 的 抽象 ,因此 , 云 计 算 甚 至 可 以 让 你 体验 每 秒 10 万 亿 次 的 运算 能 力 ， 
拥有 这 么 强大 的 计算 能 力 可 以 模拟 核 爆 炸 、 预 测 气候 变化 和 市 场 发 展 趋势 。 

互联 网 上 的 云 计 算 服 务 特征 和 自然 界 的 云 、 水 循环 具有 一 定 的 相似 性 ， 因 此 ， 云 
是 一 个 相当 贴切 的 比喻 。 根 据 美国 国家 标准 和 技术 研究 院 的 定义 ， 云 计算 服务 应 该 具 
备 以 下 几 条 特征 。 

C1) 随机 应 变 自助 服务 。 

(2) 随时 随地 用 任何 网 络 设备 访问 。 
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(3) 多 人 共享 资源 池 。 

(4) 快速 重新 部 署 灵活 度 。 

(5) 可 被 监控 与 量 测 的 服务 。 

1.3 种 服务 模式 

美国 国家 标准 和 技术 研究 院 的 云 计 算 定义 中 明确 了 三 种 服务 模式 : 

C1) 软件 即 服务 (SaaS) : 消费 者 使 用 应 用 程序 ， 但 并 不 掌控 操作 系统 、 硬 件 
或 运作 的 网 络 基础 架构 。 它 是 一 种 服务 观念 的 基础 。 软 件 服务 供应 商 ， 以 租赁 的 概 
念 提供 客户 服务 ， 而 非 购买 ， 比 较 常 见 的 模式 是 提供 一 组 账号 密码 。 例 如 : Microsoft 
CRM 5 Salesforce.com. 

(2) 平台 即 服 务 (PaaS) : 消费 者 使 用 主机 操作 应 用 程序 。 消 费 者 掌控 运作 应 
用 程序 的 环境 〈 也 拥有 主机 部 分 掌控 权 ) ， 但 并 不 掌控 操作 系统 、 硬 件 或 运作 的 网 络 
基础 架构 。 平 台 通常 是 应 用 程序 基础 架构 。 例 如 : Google App Engine。 

(3) 基础 设施 即 服务 CaaS) : 消费 者 使 用 “基础 计算 资源 ”， 如 处 理 能 力 、 
存储 空间 、 网 络 组 件 或 中 间 件 。 消 费 者 能 掌控 操作 系统 、 存 储 空间 、 已 部 署 的 应 用 
程序 及 网 络 组件 〈 如 防火 墙 、 负 载 平衡 器 等 ) ， 但 并 不 掌控 云 基础 架构 。 例 如 : 
Amazon AWS, Rackspace. 

2.4 种 部 署 模式 

美国 国家 标准 和 技术 研究 院 的 云 计 算 定义 中 也 涉及 了 关于 云 计算 的 部 署 模型 。 

d) 公用 云 (Public Cloud) 。 简 而 言 之 ， 公 用 云 服务 可 通过 网 络 及 第 三 方 服务 
供应 者 ， 开 放 给 客户 使 用 。“ 公 用 ”一 词 并 不 一 定 代 表 “ 免 费 ”， 但 也 可 能 代表 免费 
或 相当 廉价 。 公 用 云 并 不 表示 用 户 数据 可 供 任 何人 查看 ， 公 用 云 供 应 者 通常 会 对 用 户 
实施 使 用 访问 控制 机 制 。 公 用 云 作 为 解决 方案 ， 既 有 弹性 ， 又 具备 成 本 效益 。 

(2) AAZ (Private Cloud) 。 私 有 云 具 备 许多 公用 云 环境 的 优点 ， 例 如 弹性 、 
适合 提供 服务 。 两 者 差别 在 于 私有 云 服 务 中， 数据 与 程序 皆 在 组 织 内 管理 ， 且 与 公用 
云 服 务 不 同 ， 不 会 受到 网 络 带 宽 、 安 全 疑虑 、 法 规 限制 影响 。 此 外 ， 私 有 云 服务 让 供 
应 者 及 用 户 更 能 掌控 云 基础 架构 、 改 善 安全 与 弹性 , 因为 用 户 与 网 络 都 受到 特殊 限制 。 

(3) 社区 云 (Community Cloud) 。 社 区 云 由 众多 利益 相仿 的 组 织 掌控 及 使 用 ， 
例如 特定 安全 要 求 、 共 同宗 则 等 。 社 区 成 员 共 同 使 用 云 数据 及 应 用 程序 。 

(4) 混合 云 (Hybrid Cloud) 。 混 合 云 结合 公用 云 及 私有 云 ， 在 这 个 模式 中 ， 用 
户 通常 将 非 企业 关键 信息 外 包 ， 并 在 公用 云 上 处 理 , 但 同时 掌控 企业 关键 服务 及 数据 。 

3. 关键 技术 

(1) 虚拟 化 技术 。 虚 拟 化 技术 ， 是 指 计 算 元 件 在 虚拟 的 基础 上 而 不 是 真实 的 基 
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础 上 运行 ， 它 可 以 扩大 硬件 的 容量 ， 简 化 软件 的 重新 配置 过 程 ， 减 少 软件 虚拟 化 相关 
开销 和 支持 更 广泛 的 操作 系统 。 通 过 虚拟 化 技术 可 实现 软件 应 用 与 底层 硬件 相隔 离 ， 
它 包 括 将 单个 资源 划分 成 多 个 虚拟 资源 的 分 裂 模式 ， 也 包括 将 多 个 资源 整合 成 一 个 虚 
拟 资源 的 聚合 模式 。 虚 拟 化 技术 根据 对 象 可 分 成 存储 虚拟 化 、 计 算 虚拟 化 、 网 络 虚拟 
化 等 。 计 算 虚 拟 化 又 分 为 系统 级 虚拟 化 、 应 用 级 虚拟 化 和 桌面 虚拟 化 。 在 云 计 算 实现 
中 ， 计 算 系 统 虚拟 化 是 一 切 建立 在 “ 云 ” 上 的 服务 与 应 用 的 基础 。 虚 拟 化 技术 目前 主 
要 应 用 在 CPU、 操 作 系统 、 服 务 器 等 多 个 方面 ， 是 提高 服务 效率 的 最 佳 解 决 方案 。 

(2) 分 布 式 海量 数据 存储 。 云 计算 系统 由 大 量 服务 器 组 成 , 同时 为 大 量 用 户 服务 ， 
因此 云 计算 系统 采用 分 布 式 存储 的 方式 存储 数据 ， 用 宛 余 存 储 的 方式 〈 集 群 计算 、 数 
据 宛 余 和 分 布 式 存储 ) 保证 数据 的 可 靠 性 。 宛 余 的 方式 通过 任务 分 解 和 集群 ， 用 低 配 
机 器 蔡 代 超 级 计算 机 的 性 能 来 保证 低 成 本 ， 这 种 方式 保证 分 布 式 数据 的 高 可 用 、 高 可 
靠 和 经 济 性 ， 即 为 同一 份 数据 存储 多 个 副本 。 云 计算 系统 中 广泛 使 用 的 数据 存储 系统 
是 Google 的 GFS 和 Hadoop 团队 开发 的 GFS 的 开源 实现 HDFS。 

G) 海量 数据 管理 技术 。 云 计算 需要 对 分 布 的 、 海 量 的 数据 进行 处 理 、 分 析 ， 
因此 ， 要 求 数据 管理 技术 必需 能 够 高 效 地 管理 大 量 的 数据 。 云 计算 系统 中 的 数据 管理 
技术 主要 是 Google 的 BT (Big Table) 数据 管理 技术 和 Hadoop 团队 开发 的 开源 数据 
管理 模块 HBase。 由 于 云 数 据 存储 管理 形式 不 同 于 传统 的 RDBMS 数据 管理 方式 ， 如 
何在 规模 巨大 的 分 布 式 数据 中 找到 特定 的 数据 ， 也 是 云 计 算数 据 管理 技术 所 必须 解决 
的 问题 。 同 时 ， 由 于 管理 形式 的 不 同 造成 传统 的 SQL 数据 库 接口 无 法 直接 移植 到 云 
管理 系统 中 来 ， 目 前 一 些 研究 在 关注 为 云 数 据 管理 提供 RDBMS 和 SQL 的 接口 ， 如 
基于 Hadoop 子 项 目 HBase 和 Hive 等 。 另 外 ， 在 云 数 据 管理 方面 ， 如 何 保证 数据 安 
全 性 和 数据 访问 的 高 效 性 也 是 研究 关注 的 重点 问题 之 一 。 

(4) 编程 方式 。 云 计算 提供 了 分 布 式 的 计算 模式 ， 客 观 上 要 求 必须 有 分 布 式 的 
编程 模式 。 云 计算 采用 了 一 种 思想 简洁 的 分 布 式 进行 编程 模型 Map-Reduce。Map- 
Reduce 是 一 种 编程 模型 和 任务 调度 模型 ， 主 要 用 于 数据 集 的 并 行 运算 和 并 行 任务 的 
调度 处 理 。 在 该 模式 下 ， 用 户 只 需要 自行 编写 Map 函数 和 Reduce 函数 即 可 进行 并 行 
计算 。 其 中 ，Map 函数 中 定义 各 节点 上 的 分 块 数据 的 处 理 方法 ， 而 Reduce 函数 中 定 
义 中 间 结 果 的 保存 方法 以 及 最 终结 果 的 归纳 方法 。 

(5) 云 计算 平台 管理 技术 。 云 计算 资源 规模 庞大 ， 服 务 器 数量 众多 并 分 布 在 不 
同 的 地 点 ， 同 时 运行 着 数 百 种 应 用 ， 如 何 有 效 地 管理 这 些 服务 器 ， 保 证 其 为 整个 系统 
提供 不 间断 的 服务 是 一 项 巨大 的 挑战 。 云 计算 系统 的 平台 管理 技术 能 够 使 大 量 的 服务 
器 协同 工作 ， 方 便 地 进行 业务 部 署 和 开通 ， 快 速 发 现 和 恢复 系统 故障 ， 通 过 自动 化 、 
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智能 化 的 手段 实现 大 规模 系统 的 可 靠 运营 。 
4. 应 用 现状 
(1) 国外 企业 发 展现 状 。 微 软 在 2013 年 推出 Cloud OS 云 操作 系统 ， 包 括 
Windows Server 2012 R2、System Center 2012 R2、Windows Azure Pack 在 内 的 一 系列 
企业 级 云 计算 产品 及 服务 。Windows Azure 是 云 服务 操作 系统 ， 可 用 于 Azure Services 
平台 的 开发 、 服 务 托管 以 及 服务 管理 环境 。Windows Azure 为 开发 人 员 提 供 随 选 的 计 
算 和 存储 环境 , 以 便 在 互联 网 上 通过 微软 数据 中 心 来 托管 .扩充 及 管理 Web 应 用 程式 。 

IBM 在 2013 年 推出 基于 OpenStack 和 其 他 现 有 云 标准 的 私有 云 服务 ， 并 开发 
出 一 款 能 够 让 客户 在 多 个 云 之 间 迁 移 数据 的 云 存储 软件 一 一 InterCloud， 并 正在 为 
InterCloud 申请 专利 。 这 项 技术 由 在 向 云 计算 中 增加 弹性 ， 并 提供 更 好 的 信息 保护 。 
IBM 在 2013 年 12 月 收购 位 于 加 州 埃 默 里 维尔 市 的 Aspera 公司 。 在 提供 安全 性 、 宽 
控制 和 可 预见 性 的 同时 ， Aspera 使 基于 云 计 算 的 大 数据 传输 更 快速 ， 更 可 预测 和 更 
具 性 价 比 ,比如 企业 存储 备份 、 虚 拟 图 像 共享 或 者 快速 进入 云 来 增加 处 理事 务 的 能 力 。 
FASP 技术 将 与 IBM 收购 的 SoftLayer 云 计 算 基 础 架构 进行 整合 。 

甲骨 文公 司 宣布 成 为 OpenStack 基金 会 赞助 商 ， 计 划 将 OpenStack 云 管理 组 件 集 
成 到 Oracle Solaris, Oracle Linux, Oracle VM, Oracle 虚拟 计算 设备 、Oracle 基础 架 
构 即 服务 (IaaS) 、Oracle ZS3 系列 、Axiom 存储 系统 和 StorageTek 磁带 系统 中 。 并 
将 努力 促成 OpenStack 与 Exalogic、Oracle 云 计算 服务 、Oracle 存储 云 服务 的 相互 兼容 。 
OpenStack 已 经 在 业界 获得 了 越 来 越 多 的 支持 ， 包 括 惠 普 、 戴 尔 、IBM 在 内 的 众多 传 
统 硬 件 厂商 已 经 宣布 加 入 ， 并 推出 了 基于 OpenStack 的 云 操作 系统 或 类 似 产 品 。 

惠普 在 2013 年 推出 基于 惠普 HAVEn 大 数据 分 析 平 台新 的 基于 云 的 分 析 服 务 。 
惠普 企业 服务 包括 大 数据 和 分 析 的 端 对 端的 解决 方案 , 覆盖 客户 智能 、 供 应 链 和 运营 、 
传感器 数据 分 析 等 领域 。 

苹果 iCloud 是 美国 消费 者 使 用 量 最 大 的 云 计算 服务 。 苹 果 公 司 在 2011 年 就 推出 
了 在 线 存储 云 服务 iCloud。 

在 2013 年 8 月 ， 戴 尔 公 司 云 客户 端 计算 产品 组 合 全 新 推出 Dell Wyse ThinOS 8 
固件 和 Dell Wyse D10D 云 计算 客户 端 。 依 托 Dell Wyse， 戴 尔 可 为 使 用 Citrix、 微 软 、 
VMware 和 戴尔 软件 的 企业 提供 各 类 安全 、 可 管理 、 高 性 能 的 端 到 端 桌面 虚拟 化 解决 
方案 。 

(2) 国内 云 计 算 产 业 发 展现 状 。 阿 里 云 于 2013 年 12 月 在 “飞天 ”平台 之 上 启 
动 一 系列 举措 ， 括 低 门 槛 入 云 策略 、 一 亿 元 扶持 计划 、 开 发 全 新 开发 者 服务 平台 等 多 
项 内 容 。 从 产品 、 价 格 、 服 务 以 及 第 三 方 合作 等 多 个 角度 ， 打 破 传统 商业 模式 ， 以 用 
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户 第 一 的 思维 ， 创 新 云 服 务 ， 构 建 更 加 健康 的 云 计算 生态 圈 。2013 年 10 月 ， 阿 里 云 
推出 “飞天 SK 集群 ”项 目 ， 取 得 技术 上 的 重大 突破 ， 拥 有 了 只 有 Google, Facebook 
这 样 的 顶级 技术 型 IT 公司 的 单 集群 规模 才能 达到 5 000 台 服 务 器 的 通用 计算 平台 。 

百度 在 2011 年 9 月 正式 开放 其 云 计算 平台 ， 在 云 计算 基础 架构 和 海量 数据 处 理 
能 力 方面 已 较为 成 熟 ， 将 陆续 开放 IaaS、PaaS 和 SaaS 等 多 层面 的 云 平台 服务 ， 如 云 
存储 和 虚拟 机 、 应 用 执行 引擎 、 智 能 数据 分 析 和 事件 通知 服务 、 网 盘 、 地 图 、 账 号 和 
开放 API 等 。 百 度 云 OS 是 云 和 端 结合 的 通用 性 平台 ， 以 个 人 为 中 心 来 组 织 数据 和 应 
用 ， 形 成 产品 研发 的 统一 、 落 地 终端 的 统一 和 运营 渠道 的 统一 。 云 OS 提供 网 页 App 
化 的 功能 ， 还 将 支持 新 型 的 WebApp。 

浪潮 集团 已 形成 涵盖 laS, PaaS, Saas 三 个 层面 的 云 计 算 整 体 解 决 方案 服务 能 
力 ， 建 立 包括 HPC/IDC、 媒 体 云 、 教 育 云 等 跨越 十 余 个 行业 的 云 应 用 并 成 功 在 非洲 、 
东南 亚 等 地 区 进行 推广 。 承 担 “ 高 端 容错 ”和 “海量 存储 ”这 两 个 国家 “863 计划 ” 
重大 专项 ，“ 浪 潮 天 梭 1 关键 应 用 主机 ”和 “浪潮 PB 级 高 性 能 海量 存储 系统 ” 均 
通过 国家 验收 ， 并 已 成 功 在 金融 、 税 务 等 核心 领域 部 署 。2013 年 ， 浪 潮 发 布 了 其 全 
新 升级 的 云 数据 中 心 操作 系统 云海 OS V3.0， 该 产品 基于 开放 、 融 合 的 技术 理念 ， 能 
够 帮助 用 户 从 孤立 低 效 的 传统 数据 中 心 向 智能 高 效 的 云 数 据 中 心 转变 。 

华为 公司 秉承 开放 的 弹性 云 计算 的 理念 ， 如 推出 了 FusionCloud 云 战 略 ， 提 供 云 
数据 中 心 、 云 计算 产品 、 云 服务 解决 方案 。“ICT 软 硬 件 基础 设施 、 顶 层 设计 咨询 服 
务 和 联合 第 三 方 开发 智慧 城市 应 用 ”是 华为 企业 业务 的 三 个 主要 方向 ， 在 云 数据 中 心 
的 基础 上 ， 实 现 “ 云 一 管 一 端 ” 的 分 层 建设 ， 打 造 可 以 面向 未 来 的 城市 系统 框架 。 华 
为 在 2013 年 的 应 用 案例 ， 如 天 津 LTE 政务 网 〈 可 为 政府 、 公 安 等 行业 用 户 提供 ) ， 
采用 的 是 华为 基于 TD-LTE 技术 的 方案 ， 直 接 支持 数据 、 视 频 业务 ， 并 为 未 来 专业 集 
群 、 应 急 通 信和 车 等 提供 资源 预 留 。 

腾讯 公司 在 2013 年 9 月 宣布 腾讯 云 生态 系统 构建 完成 ， 将 借助 腾讯 社交 网 络 以 
及 开放 平台 来 专门 推广 腾讯 云 。 

联想 公司 在 2013 年 9 月 与 虚拟 化 和 云 基础 架构 解决 方案 的 领导 厂商 VMware 共 
建 的 “联想 威 豁 技术 联合 实验 室 ” 正 式 落成 ， 将 在 服务 器 虚拟 化 、 桌 面 虚拟 化 、 云 计 
算数 据 中 心 建设 、 基 础 架构 管理 与 运 维 、 数 据 容 灾 等 技术 领域 进行 合作 ， 共 同 开 发 适 
合 我 国 客户 的 解决 方案 。 

中 国 移动 在 2013 年 发 布 “ 大 云 ”2.5 版 本 ,实现 从 私有 云 向 混合 云 性 质 转变 ， 系 
统 容量 也 从 小 规模 试点 发 展 到 规模 化 商用 ， 而 在 应 用 方面 ， 也 从 原来 的 边缘 性 业务 渗 
透 到 了 关键 核心 业务 中 。 
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华 云 数 据 公司 在 国内 拥有 超过 15 个 城市 20 个 数据 中 心 上 万 台 物理 服务 器 集群 ， 
网 络 覆 盖 中 国电 信 、 中 国联 通 以 及 华 云 自 有 边界 网 关 协 议 (BGP) 网 络 ， 实 现 从 边缘 
到 核心 网 络 的 全 覆盖 。 华 云 数据 自主 研发 并 推出 我 国 首 个 运营 型 Paas 平台 一 一 中 国 
云 应 用 平台 。 

易 云 捷 讯 在 2013 年 10 月 成 功 发 布 易 云云 操作 系统 最 新 版 本 EayunOS 3.2, 标志 
着 国内 首 款 基 于 OpenStack 的 商业 化 云 计 算 平台 成 功 落地 。 易 云云 操作 系统 提供 包括 
服务 器 虚拟 化 、 网 络 虚拟 化 、 存 储 虚拟 化 、 大 数据 存储 以 及 云 服 务 运营 在 内 的 平台 级 
整体 解决 方案 。 

杭州 华 三 通信 公司 (H3C) 在 2013 年 9 月 推出 CloudPack 云 业务 系统 。H3C 云 
计算 解决 方案 目前 已 在 天 津 政务 云 、 南 京 市 教育 云 、 北 京 电力 、 广 铁 集团 、 海 南航 空 
等 众多 项 目 中 应 用 ，H3C 也 已 成 为 当前 云 计算 应 用 领域 最 重要 的 厂商 之 一 。 








1.7.1 Hadoop 


提 到 大 数据 和 数据 挖掘 ， 很 多 人 马上 想到 的 就 是 Hadoop。 说 到 Hadoop 就 不 
能 不 说 Google 的 三 篇 论文 。Google 在 2003 年 到 2006 年 间 发 表 了 三 篇 非常 有 名 的 
论文 ， 它 们 分 别 是 2003 年 SOSP 的 GFS (Google File System) , 2004 年 OSDI 的 
MapReduce 以 及 2006 年 OSDI 的 BigTable。 这 三 篇 论文 莫 定 了 现在 主流 大 数据 分 析 
处 理 系统 的 理论 基础 。 基 于 这 些 ， 现 今 演化 出 各 式 各 样 的 大 数据 处 理 和 分 析 系 统 。 

Hadoop 最 开始 起 源 于 Apache Nutch， 后 者 是 一 个 开源 的 网 络 搜索 引擎 ， 本 身 
也 是 由 Lucene 项 目的 一 部 分 。Nutch 项 目 开 始 于 2002 年 ， 一 个 可 工作 的 抓 取 工具 
和 搜索 系统 很 快 浮 出 水 面 。 但 工程 师 们 意识 到 ， 他 们 的 架构 将 无 法 扩展 到 拥有 数 十 
亿 网 页 的 网 络 。 到 了 2003 年 ，Google 发 表 了 一 篇 描述 Google 分 布 式 文件 系统 〈 简 
FR GFS) 的 论文 ， 这 篇 论文 为 他 们 提供 了 及 时 的 帮助 ， 文 中 称 Google 正在 使 用 此 文 
件 系统 。GFS 或 类 似 的 东西 ， 可 以 解决 他 们 在 网 络 抓 取 和 索引 过 程 中 产生 的 大 量 文 
件 的 存储 需求 。 具 体 而 言 ，GFS 会 省 掉 管 理 所 花 的 时 间 ， 如 管理 存储 结 点 。 于 是 在 
2004 年 ，Nutch 开始 写 一 个 开放 源码 的 应 用 ， 即 Nutch 的 分 布 式 文件 系统 CNDFS) 。 
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Hadoop 是 一 个 能 够 让 用 户 轻松 架构 和 使 用 的 分 布 式 计算 平台 ， 基 础 架构 如 

图 1-26。 用 户 可 以 轻松 地 在 Hadoop 上 开发 和 运行 处 理 海量 数据 的 应 用 程序 。 它 主要 
有 以 下 几 个 优点 : 

C1) 高 可 靠 性 。Hadoop 按 位 存储 和 处 理 数 据 的 能 力 值得 人 们 信赖 。 

(2) 高 扩展 性 。Hadoop 是 在 可 用 的 计算 机 集 簇 间 分 配 数据 并 完成 计算 任务 的 ， 
这 些 集 簇 可 以 方便 地 扩展 到 数 以 千 计 的 结 点 中 。 

(3) 高 效 性 。Hadoop 能 够 在 结 点 之 间 动 态 地 移动 数据 ， 并 保证 各 个 结 点 的 动态 
平衡 ， 因 此 处 理 速度 非常 快 。 

(4) 高 容错 性 。Hadoop 能 够 自动 保存 数据 的 多 个 副本 ， 并 且 能 够 自动 将 失败 的 
任务 重新 分 配 。 

(5) 低 成 本 。 与 一 体 机 、 商 用 数据 仓库 以 及 QlikView、Yonghong Z-Suite 等 数 
据 集 市 相 比 ，Hadoop 是 开源 的 ， 项 目的 软件 成 本 因此 会 大 大 降低 。 





Intel’s Distribution of Hadoop 


Tntel’s Hadoop Manager 
安装 、 部 署 、 配 置 、 监 控 、 警 告 和 访问 控制 
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图 1-26 Hadoop 图 标 及 其 框架 
Hadoop 对 大 数据 的 意义 : 


Hadoop 得 以 在 大 数据 处 理应 用 中 广泛 应 用 得 益 于 其 自身 在 数据 提取 、 变 形 和 加 载 
(EIL) 方 面 上 的 天 然 优势 -Hadoop 的 分 布 式 架构 , 将 大 数据 处 理 引擎 尽 可 能 地 靠近 存储 ， 
对 例如 像 EIL 这 样 的 批 处 理 操作 相对 合适 ， 因 为 类 似 这 样 操作 的 批 处 理 结果 可 以 直接 
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走向 存储 。Hadoop 的 MapReduce 功能 实现 了 将 单个 任务 打 碎 ， 并 将 碎片 任务 (Map) 
发 送 到 多 个 结 点 上 ， 之 后 再 以 单个 数据 集 的 形式 加 载 (Reduce) 到 数据 仓库 里 。 

2004 年 ，Google 的 MapReduce 论文 发 表 ， 开 发 者 在 Nutch 上 有 了 一 个 可 工作 的 
MapReduce 应 用 。 到 2005 年 年 中 ， 所 有 主要 的 Nutch 算法 被 移植 到 使 用 MapReduce 
和 NDFS 来 运行 。 

Nutch 中 的 NDFS 和 MapReduce 实现 的 应 用 远 远 不 只 是 搜索 领域 ， 在 2006 年 2 H, 
Nutch 中 转移 出 来 一 部 分 建立 了 一 个 独立 的 Lucene 子 项 目 ， 称 为 Hadoop。Yahoo 对 
Hadoop 非常 感 兴趣 ， 在 这 个 时 候 ，Doug Cutting 加 入 了 Yahoo, Yahoo 为 此 专门 提供 了 
一 个 团队 和 资源 将 Hadoop 发 展 成 一 个 可 在 网 络 上 运行 的 系统 。2008 年 2 月 ，Yahoo 宣 
布 其 搜索 引擎 产品 部 署 在 一 个 拥有 1 万 个 内 核 的 Hadoop 集群 上 ， 如 图 1-27 所 示 。 





图 1-27 Yahoo 的 Hadoop 集群 


2008 年 1 H, Hadoop 已 成 为 Apache 顶级 项 目 ， 之 前 的 无 数 事例 证 明 它 是 成 功 
的 项 目 。 同 时 围绕 Hadoop 产生 了 一 个 多 样 化 、 活 跃 的 社区 。 随 后 Hadoop 成 功 地 被 
Yahoo 之 外 的 很 多 公司 应 用 ， 如 Last.fm, Facebook 和 《纽约 时 报 》《 纽 约 时 报 》 使 用 
100 台 机 器 ， 并 基于 亚马逊 的 Hadoop 产品 EC2 将 4TB 的 报纸 扫描 文档 压缩 ， 转 换 为 
用 于 Web 的 PDF 文件 ， 这 个 过 程 历时 不 到 24 小 时 。 

2008 年 4 H, Hadoop 打破 世界 纪录 ， 成 为 最 快 排序 1TB 数据 的 系统 。 运 行 在 
一 个 910 结 点 的 群集 ，Hadoop 在 209 秒 内 排序 了 1TB 的 数据 (还 不 到 三 分 半 钟 )， 
击败 了 前 一 年 的 297 秒 冠军 。 同 年 11 A, Google 在 报告 中 声称 ， 它 的 MapReduce 
实现 执行 1TB 数据 的 排序 只 用 68 秒 。2009 年 5 月 ， 有 报道 宣称 Yahoo 的 团队 使 用 
Hadoop 对 1TB 的 数据 进行 排序 只 花 了 62 秒 。 


1.7.2 Storm 


2008 年 一 家 名 叫 BackType 的 公司 在 硅谷 悄然 成 立 ， 它 们 主攻 领域 是 数据 分 析 ， 
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通过 实时 收集 的 数据 帮助 客户 了 解 其 产品 对 社交 媒体 的 影响 。 其 中 有 一 项 功能 就 是 能 
够 查询 历史 记录 ， 当 时 BackType 用 的 是 标准 的 队列 和 类 似 Hadoop 的 worker 方 法 。 
很 快 , 工程 师 Nathan Marz 发 现 了 其 中 巨大 的 缺点 。 第 一 ， 要 保证 所 有 队列 一 直 在 工作 ; 
第 二 ， 在 构建 应 用 程序 时 候 ， 不 够 灵活 ， 显 得 过 于 重量 级 ， 第 三 ， 在 部 署 方面 也 非常 
不 方便 。 于 是 Nathan Marz 开始 尝试 新 的 解决 方案 , 并 在 2010 年 12 月 提出 了 流 (stream) 
的 概念 ， 将 流 作为 分 布 式 抽象 的 方法 ， 数 据 之 间 的 传递 为 流 。 紧 接着 ， 对 于 流 的 处 
理 的 两 个 概念 体 “spout” 和 “bolt” 也 产生 了 。spout 生产 全 新 的 流 ， 而 bolt 将 产生 
的 流 作为 输入 并 产 出 流 。 这 就 是 spout 和 bolt 的 并 行 本 质 ， 它 与 Hadoop 中 mapper 和 
reducer 的 并 行 原理 相似 。bolt 只 需 简单 地 对 其 要 进行 处 理 的 流 进行 注册 ， 并 指出 接 
入 的 流 在 bolt 中 的 划分 方式 。 最 后 , Nathan Marz 对 分 布 式 系统 顶级 抽象 就 是 “topology 

(拓扑 图 ) ”一 一 由 spout 和 bolt 组 成 的 网 络 。 此 时 ， 新 的 大 数据 分 析 和 处 理 系 统 浮 
出 水 面 ， 这 就 是 Storm， 如 图 1-28。 只 是 在 这 个 时 候 ，Storm 还 并 不 出 名 。 





APACHE 


STORM 


Distributed ' Resilient - Real-time 


图 1-28 Storm 平台 图 标 


接 下 来 ，Storm 的 设计 采用 了 不 少 Hadoop 的 理念 。 由 于 Hadoop 自身 的 缺陷 性 ， 
它 运行 一 段 时 间 后 经 常会 出 现 不 少 的 “ 伪 尸 进程 ”， 最 终 导致 整个 集群 资源 耗 尽 ， 而 
不 能 工作 。 针 对 这 点 ，Storm 做 了 额外 的 设计 ， 避 免 “ 僵 尸 进 程 ”， 从 而 使 得 整个 系 
统 的 可 用 性 和 可 靠 性 大 大 提高 。 

2011 年 5 月 对 BackType 是 个 重要 的 日 子 ， 因 为 他 们 被 Twitter 收购 了 。 借 助 
Twitter 的 品牌 效应 ，2011 年 9 H 19 H Storm 正式 发 布 。 发 布 会 获得 了 巨大 的 成 功 ， 
Storm 当时 登 上 了 Hacker News 的 头条 。 由 于 其 良好 的 实时 处 理 和 分 析 的 表现 ， 人 们 
称 Storm 为 “实时 的 Hadoop”。 

开源 的 短 短 的 三 年 后 ，Storm 在 2014 年 9 月 17 日 正式 步 入 Apache 顶级 项 目的 
行列 。 到 如 今 ，Storm 已 被 广泛 应 用 在 医疗 保健 、 和 天气、 新闻、 分析、 拍卖 、 广 告 、 
旅游 、 报 警 、 金 融 等 诸多 领域 。 

Storm 的 优点 : 

(1) 简单 的 编程 模型 。 类 似 MapReduce 降低 了 并 行 批 处 理 的 复杂 性 ，Storm 降 
低 了 进行 实时 处 理 的 复杂 性 。 
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(2) 可 以 使 用 各 种 编程 语言 。 你 可 以 在 Storm 上 使 用 各 种 编程 语言 。 默 认 支 
持 Clojure, Java, Ruby 和 Python。 要 增加 对 其 他 语言 的 支持 ， 只 需 实现 一 个 简单 的 
Storm 通信 协议 即 可 。 

(3) 容错 性 。Storm 会 管理 工作 进程 和 结 点 的 故障 。 

(4) 水 平 扩 展 。 计 算是 在 多 个 线程 、 进 程 和 服务 器 之 间 并 行进 行 的 。 

(5) 可 靠 的 消息 处 理 。Storm 保证 每 个 消息 至 少 能 得 到 一 次 完整 处 理 。 任 务 失 
败 时 ， 它 会 负责 从 消息 源 重 试 消息 。 

(6) 快速 。 系 统 的 设计 保证 了 消息 能 得 到 快速 处 理 ， 使 用 OMQ 作为 其 底层 消 
息 队 列 。 

(7) 本 地 模式 。Storm 有 一 个 “本 地 模式 ”， 可 以 在 处 理 过 程 中 完全 模拟 Storm 
集群 。 这 让 你 可 以 进行 快速 开发 和 单元 测试 。 


1.7.3 Spark 


相对 于 Storm 作为 另 一 个 专门 面向 实时 分 布 式 计算 任务 的 项 目 ，Spark 最 初 由 加 
州 大 学 伯克利 分 校 的 APMLab 实验 室 于 2009 年 开始 打造 ， 而 后 又 加 入 Apache He 
器 项 目 ， 并 最 终于 2014 年 2 月 成 为 其 中 的 顶尖 项 目 之 一 ， 整 个 过 程 历时 不 到 5 年 。 
由 于 Spark 出 自 伯 克利 大 学 ， 使 其 在 整个 发 展 过 程 中 都 烙 上 了 学 术 研 究 的 标记 ， 对 于 
一 个 在 数据 科学 领域 的 平台 而 言 ， 这 也 是 题 中 应 有 之 意 ， 它 的 出 身 甚 至 决定 了 Spark 
的 发 展 动力 。 它 的 天 生 环境 导致 Spark 的 核心 RDD (Resilient Distributed Datasets) ， 
以 及 流 处 理 、SQL 智能 分 析 、 机 器 学 习 等 功能 ， 都 脱胎 于 学 术 研 究 论文 。 与 Storm 
类 似 ，Spark 也 支持 面向 流 的 处 理 机 制 ， 不 过 这 是 一 套 更 具 泛 用 性 的 分 布 式 计算 平台 


如 图 1-29 所 示 。 
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1-29 Spark 图 标 及 其 框架 
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AMPLab 开发 以 Spark 为 核心 的 伯克利 数据 分 析 栈 (BDAS) 时 提出 的 目标 是 : 
one stack to rule them all， 也 就 是 说 在 一 套 软 件 栈 内 必须 完成 各 种 大 数据 分 析 任 务 。 
相对 于 MapReduce 上 的 批量 计算 、 和 迭代 型 计算 以 及 基于 数据 库 Hive 的 SQL 查询 ， 
Spark 可 以 带 来 上 百倍 的 性 能 提升 。 目 前 Spark 的 生态 系统 日 趋 完善 ，Spark SQL 的 
BA, Hive on Spark 项 目的 启动 以 及 大 量 数据 公司 对 Spark 全 面 的 支持 ， 让 Spark 的 
数据 分 析 范 式 更 加 丰富 。 

在 大 数据 领域 ， 只 有 深 挖 数据 科学 领域 ， 走 在 学 术 前 沿 ， 才 能 在 底层 算法 和 模 
型 方面 走 在 潮流 的 前 面 ， 从 而 占据 领先 地 位 。Spark 的 这 种 学 术 基 因 ， 使 得 它 从 一 
开始 就 在 大 数据 领域 建立 了 一 定 优势 。 无 论 是 其 性 能 ， 还 是 方案 的 统一 性 ， 相 对 于 
传统 的 Hadoop， 优 势 都 非常 明显 。Spark 提供 的 基于 RDD 的 一 体 化 解决 方案 ， 将 
MapReduce、Streaming、SQL、Machine Learning、Graph Processing 等 模型 统一 到 同 
一 个 平台 下 ， 以 一 致 的 API 公开 ， 并 提供 相同 的 部 署 方案 ， 使 得 Spark 的 工程 应 用 领 
域 变 得 更 加 广泛 。 

Spark Streaming， 构 建 在 Spark 上 处 理 Stream 数据 的 框架 ， 基 本 的 原理 是 将 
Stream 数据 分 成 小 的 时 间 片 断 〈 几 秒 ) ， 以 类 似 batch 批量 处 理 的 方式 来 处 理 这 小 
部 分 数据 。Spark Streaming 构建 在 Spark 上 ， 一 方面 是 因为 Spark 的 低 延 迟 执行 引擎 
(100ms+)，, 虽然 比 不 上 专门 的 流 式 数据 处 理 软件 , 但 也 可 以 用 于 实时 计算 ; 另 一 方面 ， 
相 比 基于 Record 的 其 他 处 理 框 架 (如 Storm) ， 一 部 分 依赖 的 RDD 数据 集 可 以 从 源 
数据 重新 计算 以 达到 容错 处 理 目的 。 此 外 小 批量 处 理 的 方式 使 得 它 可 以 同时 兼容 批量 
和 实时 数据 处 理 的 逻辑 和 算法 ， 方 便 了 一 些 需要 历史 数据 和 实时 数据 联合 分 析 的 特定 
应 用 场合 。 


1.7.4 SPASS ( SPSS ) 


除了 Hadoop, Spark, Storm 这 些 新 兴 的 大 数据 挖掘 /分 析 
So ač 系统 ， 现 今 还 存在 一 些 已 经 存在 很 多 年 ， 且 在 很 多 专业 领域 应 用 
的 数据 挖掘 软件 。 严 格 来 说 ， 它 们 应 该 不 属于 “大 数据 ”的 挖掘 ， 

其 中 就 有 SAPSS 和 SAS. 

SPASS (Statistical Product and Service Solutions), 全 称 “ 统 计 产 品 与 服务 解决 方案 ” 
软件 。 它 是 世界 上 第 一 个 在 微机 上 发 布 的 统计 分 析 软 件 。 由 美国 斯 坦 福 大 学 的 三 位 研 
究 生 Norman H. Nie, C. Hadlai (Tex) Hull 和 Dale H. Bent 于 1968 年 研究 开发 成 功 ， 
同时 成 立 了 SPSS 公司 ， 并 于 1975 年 成 立法 人 组 织 ， 在 芝加哥 组 建 了 SPSS 总 部 。 
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2009 年 ，IBM 公司 收购 了 SPASS。 

SPASS 并 不 是 一 套 完整 的 数据 采集 、 计 算 分 析 的 分 布 式 挖掘 系统 ， 而 且 对 于 大 
数据 的 处 理 也 是 力不从心 ， 但 作为 一 套 存 在 了 几 十 年 的 数据 挖掘 和 分 析 软 件 ， 其 数据 
分 析 和 挖掘 实力 对 于 静态 数据 来 说 ， 还 是 具有 很 好 的 口碑 。 

SPASS (SPSS) 优点 。 

(1) 操作 简便 : 界面 非常 友好 ， 如 图 1-30， 除 了 数据 录入 及 部 分 命令 程序 等 少 
数 输入 工作 需要 键盘 键 外 ,大 多 数 操作 可 通过 鼠标 拖 忠 、 单 击 “ 菜 单 ”“ 按 钮 ”和 “对 
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Le i a ee ee ee eee 
Sua E oo Leh AAt BOG Ble 









































(2) SPSS 编程 方便 : 具有 第 四 代 语 言 的 特点 ， 告 诉 系统 要 做 什么 ， 无 须 告诉 怎 
样 做 。 只 要 了 解 统计 分 析 的 原理 ， 无 须 通晓 统计 方法 的 各 种 算法 ， 即 可 得 到 需要 的 统 
计 分 析 结 果 。 对 于 常见 的 统计 方法 ，SPSS 的 命令 语句 、 子 命令 及 选择 项 的 选择 绝 大 
部 分 由 “对 话 框 ”的 操作 完成 。 因 此 ， 用 户 无 须 花 大 量 时 间 记 忆 大 量 的 命令 、 过 程 和 
选择 项 。 
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(3) SPSS 功能 强大 : 具有 完整 的 数据 输入 、 编 辑 、 统 计 分 析 、 报 表 、 图 形制 作 
等 功能 。 自 带 11 种 类 型 136 个 函数 。SPSS 提供 了 从 简单 的 统计 描述 到 复杂 的 多 因素 
统计 分 析 方 法 ， 比 如 数据 的 探索 性 分 析 、 统 计 描述 、 列 联 表 分 析 、 二 维 相关 、 秩 相关 、 
偏 相 关 、 方 差分 析 、 非 参数 检验 、 多 元 回归 、 生 存 分 析 、 协 方差 分 析 、 判 别 分 析 、 因 
子 分 析 、 聚 类 分 析 、 非 线性 回归 、Logistic 回归 等 。 

(4) SPSS 数据 接口 :能 够 读 取 及 输出 多 种 格式 的 文件 。 比 如 由 dBASE, 
FoxBASE、FoxPRO 产生 的 *.dbf 文件 ， 文 本 编辑 器 软件 生成 的 ASC TI Be ICH, 
Excel 的 *.xls 文件 等 均 可 转换 成 可 供 分 析 的 SPSS 数据 文件 。 能 够 把 SPSS 的 图 形 转 
换 为 7 种 图 形 文件 。 结 果 可 保存 为 *.txt 及 html 格式 的 文件 。 

(5) SPSS 模块 组 合 : SPSS for Windows 软件 分 为 若干 功能 模块 。 用 户 可 以 根据 
自己 的 分 析 需 要 和 计算 机 的 实际 配置 情况 灵活 选择 。 

(6) SPSS 针对 性 强 : SPSS 针对 初学 者 、 熟 练 者 及 精通 者 都 比较 适用 。 


1.7.5 SAS 


SAS (如 图 1-31 所 示 ) 是 “统计 分 析 系 统 ” (Statistical Analysis System) 的 缩写 。 
它 最 早 由 美国 北 卡罗来纳 州 大 学 于 1964 年 研制 ，1976 年 成 立 公 司 正式 开始 发 布 软件 。 
经 过 多 年 的 发 展 ，SAS 已 被 全 世界 120 多 个 国家 和 地 区 的 近 三 万 家 机 构 所 采用 ， 直 
接 用 户 则 超过 三 百 万 人 人， 遍及 金融 、 医 药 了 卫生、 生产、 运输 、 通 信 、 政 府 和 教育 科研 
等 领域 。 在 数据 处 理 和 统计 分 析 领 域 ，SAS 系统 被 誉 为 国际 上 的 标准 软件 系统 ， 并 
在 1996 一 1997 年 度 被 评选 为 建立 数据 库 的 首选 产品 。 SAS, SPASS, BMDP (Biomedical 
Programs， 生 物 医学 程序 ) 并 称 为 国际 统计 软件 的 “三 剑客 ”。 


GSAS. 


THE POWER TO KNOW。 
图 1-31 SAS 图 标 


SAS 系统 是 一 个 组 合 软件 系统 ， 它 由 多 个 功能 模块 组 合 而 成 ， 其 基本 部 分 是 
BASE SAS (基础 模块 ) 模块 。BASE SAS 模块 是 SAS 系统 的 核心 ， 承 担 着 主要 的 数 
据 管理 任务 ， 并 管理 用 户 的 使 用 环境 ， 进 行 用 户 的 语言 处 理 ， 调 用 其 他 SAS 模块 和 
产品 。 也 就 是 说 ，SAS 系统 的 运行 ， 首 先 必须 启动 BASE SAS 模块 ， 它 除了 本 身 所 
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具有 数据 管理 、 程 序 设 计 及 描述 统计 计算 功能 以 外 ， 还 是 SAS 系统 的 中 央 调 度 室 。 
它 除 可 单独 存在 运行 外 ， 也 可 与 其 他 产品 或 模块 共同 构成 一 个 完整 的 生态 系统 。 各 模 
块 的 安装 、 务 载 及 更 新 都 可 通过 其 安装 程序 非常 方便 地 进行 。SAS 系统 具有 灵活 的 
功能 扩展 接口 和 强大 的 功能 模块 ， 在 BASE SAS 的 基础 上 ， 还 可 以 增加 如 下 不 同 的 
模块 而 增加 不 同 的 功能 :SAS/STAT 统 计 分 析 模 块 ) 、SAS/GRAPH (绘图 模块 ) 、 
SAS/QC (质量 控制 模块 )、SAS/ETS (经 济 计 量 学 和 时 间 序 列 分 析 模 块 )、SAS/OR GE 
筹 学 模块 ) 、SAS/TML 〈 交 互 式 和 矩阵 程序 设计 语言 模块 ) 、SAS/FSP〈 快 速 数 据 处 理 
的 交互 式 菜单 系统 模块 ) 、SAS/AF (交互 式 全 屏幕 软件 应 用 系统 模块 ) 等 。SAS 有 
一 个 智能 型 绘图 系统 ,不 仅 能 绘 各 种 统计 图 , 还 能 绘 出 地 图 。SAS 提供 多 个 统计 过 程 ， 
每 个 过 程 均 含有 极 丰 富 的 任 选项 。 用 户 可 以 通过 对 数据 集 的 一 连 串 加 工 ， 实 现 更 为 复 
杂 的 统计 分 析 。 此 外 ，SAS 还 提供 了 各 类 概率 分 析 函 数 、 分 位 数 函数 、 样 本 统计 函 
数 和 随机 数 生成 函数 ， 使 用 户 能 方便 地 实现 特殊 统计 要 求 。 

SAS 更 注重 对 数据 仓库 里 面 的 内 容 进 行 分 析 ， 而 且 价格 不 菲 ， 对 于 使 用 者 也 有 
很 高 的 要 求 ， 因 此 面 对 如 今 测 涌 的 开源 大 潮 确实 有 点 力不从心 。 

SAS 的 优点 如 下 所 述 。 

(1) 功能 强大 ， 统 计 方 法 齐 、 全 、 新 。SAS 提供 了 从 基本 统计 数 的 计算 到 各 种 
试验 设计 的 方差 分 析 ， 相 关 回 归 分 析 以 及 多 变数 分 析 的 多 种 统计 分 析 过 程 ， 几 乎 包 
括 了 所 有 最 新 分 析 方法 ， 其 分 析 技 术 先 进 、 可 靠 。 分 析 方 法 的 实现 通过 过 程 调用 完 
成 。 许 多 过 程 同时 提供 了 多 种 算法 和 选项 。 例 如 方差 分 析 中 的 多 重 比较 ， 提 供 了 包括 
LSD, DUNCAN, TUKEY 测验 在 内 的 10 余 种 方法 ;回归 分 析 提 供 了 9 种 自 变 量 选 
择 的 方法 (如 STEPWISE、BACKWARD、FORWARD、RSQUARE 等 ) 。 

回归 模型 中 可 以 选择 是 否 包括 截 距 ， 还 可 以 事先 指定 一 些 包 括 在 模型 中 的 自 变量 
FA (SUBSET) 等 。 对 于 中 间 计 算 结果 ， 可 以 全 部 输出 、 不 输出 或 选择 输出 ， 也 可 
存储 到 文件 中 供 后 续 分 析 过 程 调用 。 

(2) 使 用 简便 ， 操 作 灵活 。SAS 以 一 个 通用 的 数据 (Data) 产生 数据 集 ， 而 后 
以 不 同 的 过 程 调 用 完成 各 种 数据 分 析 。 其 编程 语 名 简洁， 短小， 通常 只 需 很 小 的 几 个 
语句 即 可 完成 一 些 复杂 的 运算 ， 得 到 令 人 满意 的 结果 。 结 果 输 出 以 简明 的 英文 给 出 提 
示 ， 统 计 术 语 规范 易 懂 ， 只 需 使 用 者 具有 初步 英语 和 统计 基础 即 可 。 使 用 者 只 要 告诉 
SAS “做 什么 ”, 而 不 必 告 诉 其 “怎么 做 ”。 同时 SAS 的 设计 , 使 得 任何 SAS 能 够 “ 猜 ” 
出 的 东西 用 户 都 不 必 告 诉 它 〈 即 无 须 设 定 ) ， 并 且 能 自动 修正 一 些小 的 错误 例如 将 
DATA 语句 的 DATA 拼写 成 DATE，SAS 将 假设 为 DATA 继续 运行 ， 仅 在 LOG 中 给 
出 注释 说 明 ) 。 


69 | 


大 数据 、 数 据 挖掘 与 智慧 运营 


对 运行 时 的 错误 , 它 尽 可 能 地 给 出 错误 原因 及 改正 方法 。 因 而 SAS 将 统计 的 科学 、 
严谨 和 准确 与 便于 使 用 者 有 机 结合 起 来 ， 极 大 地 方便 了 使 用 者 。 

G) 提供 联机 帮助 功能 。 使 用 过 程 中 按 下 功能 键 F1， 可 随时 获得 帮助 信息 ， 得 
到 简明 的 操作 指导 。 
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本 章 将 围绕 数据 统计 与 预 处 理工 作 展开 讨论 。 数 据 预 处 理 是 数据 挖掘 的 基础 ， 对 
后 续 的 数据 挖掘 工作 有 至 关 重 要 的 意义 。 首 节 介绍 不 同 的 数据 属性 类 型 。2.2 节 介 绍 
数据 的 统计 特性 ， 这 对 我 们 找 出 数据 对 象 之 间 的 联系 有 很 大 的 帮助 。2.3 节 介绍 关于 
数据 清理 、 集 成 、 归 约 、 变 换 和 离散 化 等 数据 预 处 理 的 内 容 。2.4 节 介绍 如 何 从 源 字 
段 中 创造 一 些 包 含 重要 信息 的 新 字段 集 ， 以 满足 建 模 需 求 。2.5 节 详细 讲述 了 如 何在 
SPSS 软件 中 处 理 有 缺失 值 、 有 了 噪声 的 数据 以 及 如 何 进行 主 成 分 分 析 。 


数据 集 由 数据 对 和 象 构成 一 个 数据 对 象 代表 一 个 实体 。 数据 对 象 又 称 样本 、 实 例 、 
数据 点 或 对 象 。 例 如 ， 在 销售 数据 库 中 ， 对 象 可 以 是 顾客 、 商 品 或 销售 ， 又 例如 ， 在 
大 学 的 数据 库 中 ， 对 象 可 以 是 学 生 、 教 授 和 课程 。 通 常 ， 数 据 对 象 用 属性 描述 。 如 果 
数据 对 象 存放 在 数据 库 中 , 则 他 们 是 数据 元 组 。 也 就 是 说 , 数据 库 的 行 对 应 数据 对 象 ， 
而 列 对 应 属性 。 本 节 我 们 将 定义 属性 ， 并 且 考察 各 种 属性 类 型 。 


2.1.1 数据 属性 定义 


属性 (Attribute) 是 一 个 数据 字段 ， 表 示 数 据 对 象 的 一 个 特征 。 在 文献 中 ， 属 性 、 
维度 (Dimension) 、 特 征 (Feature) 和 变量 (Variable) 被 广泛 的 交替 使 用 ， 其 意义 
基本 一 致 ， 本 文 将 不 加 区 分 的 交替 使 用 上 述 概念 。 给 定 属性 的 观测 值 叫 作 观测 。 属 性 
向 量 (或 特征 向 量 ) 是 用 来 描述 一 个 给 定 对 象 的 一 组 属性 。 涉 及 一 个 属性 的 数据 称 为 
单 变 量 (Univariate) ， 涉 及 两 个 属性 的 数据 称 为 双 变量 (Bivariate) ， 等 等 。 

一 个 属性 的 类 型 由 该 属性 可 能 具有 值 的 集合 决定 。 属 性 可 以 是 标 称 的 、 二 元 的 、 
序数 的 或 数值 的 。 可 以 用 许多 方法 来 组 织 属性 类 型 ， 这 些 类 型 不 是 互 斥 的 。 机 器 学 习 
领域 开发 的 分 类 算法 通常 把 属性 分 成 离散 的 或 连续 的 。 每 种 类 型 都 可 以 用 不 同 的 方法 
处 理 。 下 面 我 们 将 为 大 家 分 别 介绍 离散 属性 和 连续 属性 。 


2.1.2 ”离散 属性 


离散 属性 (Discrete Attribute) 具有 有 限 或 无 限 可 数 个 可 取 值 ， 可 以 用 整数 表示 。 
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注意 离散 属性 可 以 具有 数值 。 例 如 ， 对 于 二 元 属性 “是 否 4G 用 户 ” 取 值 0 和 1， 对 
于 年 龄 属性 取 值 0 到 120。 如 果 一 个 属性 可 能 值 的 集合 是 无 限 的 ， 但 可 以 建立 一 个 与 
自然 数 的 一 一 对 应 ， 则 这 个 属性 又 称 为 无 限 可 数 的 。 例 如 ， 移 动 公司 中 客户 的 编号 是 
无 限 可 数 的 。 虽 然 客户 数量 是 无 限 增长 的 , 但 可 以 建立 这 些 值 与 整数 集合 的 一 一 对 应 。 

离散 属性 在 二 维 坐 标 系 中 表现 为 分 离 、 不 连续 的 散 点 。 离 散 属性 可 分 为 无 大 小 
关系 的 离散 属性 ， 如 图 2-1 所 示 ， 终 端 制式 分 布 条 形 图 ， 有 大 小 关系 的 离散 属性 ， 如 
图 2-2 所 示 ， 信 用 等 级 分 布 条 形 图 。 
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信用 等 级 
2-2 ”信用 等 级 分 布 条 形 图 
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连续 属性 〈Continuous Attribute) 是 在 一 定 区 间 内 可 以 任意 取 值 的 数据 属性 。 它 
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的 数值 是 连续 不 断 的 ， 相 邻 两 个 数值 可 做 无 限 分 隔 ， 即 可 取 无 限 个 可 能 数值 。 如 果 
属性 不 是 离散 的 ， 则 它 是 连续 的 。 例 如 ， 移 动用 户 的 每 月 ARPU (Average Revenue 
Per User， 每 用 户 平 均 收入 ) 、 每 月 DOU (Dataflow of usage， 每 用 户 使 用 流量 ) 
和 每 月 MOU (Minutes of Usage， 每 用 户 通话 时 间 ) 等 具有 连续 属性 。 在 文献 中 ， 
术语 “数值 属性 ”与 “连续 属性 ”通常 可 以 互 换 使 用 (因为 在 经 典 意义 下 ， 连 续 值 
是 实数 ， 而 数值 值 可 以 是 整数 或 实数 ) 在 实践 中 ， 实 数值 用 有 限 位 数字 表示 ， 可 以 
有 小 数 点 ， 可 以 直接 录入 。 连 续 属性 一 般 用 浮 点 变量 表示 。 

一 般 连 续 属 性 在 二 维 坐标 系 中 可 以 表现 为 曲线 形式 ， 但 在 实际 应 用 中 ， 被 视 为 具 
有 连续 属性 的 字段 ， 所 能 采集 到 的 值 为 离散 值 。 如 图 2-3 所 示 ， 移 动用 户 当 月 ARPU 
的 直方 图 。 
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图 2-3 移动 用 户 当月 ARPU 的 直方 图 


在 坐标 系 中 ， 连 续 属性 是 一 段 区 间 ， 而 离散 属性 则 是 很 多 离散 的 点 。 在 统计 图 表 
中 ， 离 散 属性 通常 用 条 形 图 来 表示 ， 连 续 属性 可 以 用 直方 图 来 表示 。 在 数据 挖掘 的 应 
用 中 ， 连 续 属性 一 般 要 经 过 离散 化 处 理 后 才能 应 用 于 建 模 分 析 ， 具 体 离散 化 处 理 方式 
详 见 2.3.6 节 。 
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2.21 中心 趋 势 度 量 


对 于 许多 数据 预 处 理 任务 ， 用 户 希望 知道 关于 数据 的 中 心 趋势 和 离 中 趋势 特 
征 。 中 心 趋势 度量 包括 均值 (Mean〉、 中 位 数 (Median) 、 众 数 (Mode) 、 中 列 数 
(Midrange), 而 数据 离 中 趋势 度量 包括 四 分 位 数 (Quartiles)、 四 分 位 数 极 差 (Interquartile 
Range, IQR) 和 方差 〈Variance) 。 

数据 集 的 “中 心 ” 最 常用 、 最 有 效 的 数值 度量 是 (算术 ) BY. Boxy, xp 1s 
xw 是 某 个 值 或 观测 的 集合 。 该 值 集 的 均值 是 








N 
Bes “ata tty (2-1) 
N N 
有 时 ， 对 于 irl, e N, ME x, 可 以 与 一 个 权重 w, 相关 联 。 权 重 反 映 它们 所 
依附 的 对 应 值 的 意义 、 重 要 性 或 出 现 的 频率 。 在 这 种 情况 下 ， 我 们 可 以 计算 
N 
Èx ced 
= 1 2 N 
这 称 作 加 权 算 术 均 值 或 加 权 平 均 。 


尽管 均值 是 描述 数据 集 的 最 有 用 的 单个 量 ， 但 它 并 非 总 是 度量 数据 中 心 的 最 佳 方 
法 。 主 要 问题 是 均值 对 极端 值 〈 如 离 群 点 ) 很 敏感 。 为 了 抵消 少数 极端 值 的 影响 ， 我 
们 可 以 使 用 截 尾 均值 (Trimmed Mean) 。 截 尾 均值 是 丢弃 高 低 极 端 值 后 的 均值 。 例 如 ， 
我 们 可 以 对 一 个 数据 集 的 观测 值 排序 ， 并 且 在 计算 均值 之 前 去 掉 高 端 和 低 端 的 2%。 
我 们 应 该 避免 在 两 端 截 去 太 多 (如 20%) ， 因 为 这 可 能 导致 丢失 有 价值 的 信息 。 

对 于 倾斜 〈 非 对 称 ) 数据 ， 数 据 中 心 的 更 好 度量 是 中 位 数 (Median) 。 中 位 数 
是 有 序数 据 值 的 中 间 值 。 它 是 把 数据 较 高 的 一 半 与 较 低 的 一 半分 开 的 值 。 

BERERE X K 六 个 值 按 递 增 序 排序 。 如 果 六 是 奇数 ， 则 中 位 数 是 该 有 序 
集 的 中 间 值 ;， 如 果 六 是 偶数 ， 则 中 位 数 不 唯 一 ， 它 是 最 中 间 的 两 个 值 和 它们 之 间 的 
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任意 值 。 在 工 是 数值 属性 的 情况 下 ， 根 据 约定 ， 中 位 数 取 作 最 中 间 两 个 值 的 平均 值 。 

众 数 是 另 一 种 中 心 趋势 度量 。 数 据 集 的 众 数 (Mode) 是 集合 中 出 现 最 频繁 的 值 。 
因此 ， 可 以 对 定性 和 定量 属性 确定 众 数 。 可 能 最 高 频率 对 应 多 个 不 同 值 ， 导 致 多 个 
众 数 。 具 有 一 个 、 两 个 、 三 个 众 数 的 数据 集合 分 别称 为 单 峰 的 (Unimodal) 、 双 峰 
的 (Bimodal) 和 三 峰 的 (Trimodal) 。 一 般 地 ， 具 有 两 个 或 更 多 众 数 的 数据 集 是 多 
WEI) (Multimodal) 。 在 另 一 种 极端 情况 下 ， 如 果 每 个 数据 值 仅 出 现 一 次 ， 则 它 没 有 
众 数 。 

中 列 数 (Midrange) 也 可 以 用 来 评估 数值 数据 的 中 心 趋势 。 中 列 数 是 数据 集 的 最 
大 值 和 最 小 值 的 平均 值 。 中 列 数 可 以 用 SQL 的 聚集 函数 max) 和 min) 计算 。 
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2.2.2.1 等 分 位 数 


把 所 有 数值 由 小 到 大 排列 ， 并 等 分 成 n 等 分 ， 处 于 (n-1) 个 分 割 点 位 置 的 数值 
就 是 等 分 位 数 。 常 用 的 等 分 位 数 有 四 分 位 数 和 百 分 位 数 。 

1. 四 分 位 数 

(1) 概念 。 统 计 学 中 ， 把 所 有 数值 由 小 到 大 排列 并 分 成 四 等 份 ， 处 于 三 个 分 割 
点 位 置 的 数值 就 是 四 分 位 数 。 

第 一 四 分 位 数 〈Q1) ， 又 称 “ 较 小 四 分 位 数 ”， 等 于 该 样本 中 所 有 数值 由 小 到 
大 排列 后 排名 25% 的 数字 。 

第 二 四 分 位 数 〈Q2) ， 又 称 “ 中 位 数 ”， 等 于 该 样本 中 所 有 数值 由 小 到 大 排列 
后 排名 50% 的 数字 。 

第 三 四 分 位 数 〈Q3) ， 又 称 “ 较 大 四 分 位 数 ”， 等 于 该 样本 中 所 有 数值 由 小 到 
大 排列 后 排名 75% 的 数字 。 

第 三 四 分 位 数 与 第 一 四 分 位 数 的 差距 又 称 四 分 位 距 。 

(2) 应 用 。 不 论 Q1、Q2、Q3 的 变异 量 数 数值 为 何 ， 均 视 为 一 个 分 界 点 ， 以 此 
将 总 数 分 成 四 个 相等 部 分 ， 可 以 通过 Q1、Q3 比较 ， 分 析 其 数据 变量 的 趋势 。 

四 分 位 数 在 统计 学 中 的 箱 线 图 绘制 方面 应 用 也 很 广泛 。 所 谓 箱 线 图 就 是 由 一 组 数 
据 5 个 特征 绘制 的 一 个 箱子 和 两 条 线段 的 图 形 ， 这 种 直观 的 箱 线 图 不 仅 能 反映 出 一 组 
数据 的 分 布 特征 ， 而 且 还 可 以 进行 多 组 数据 的 分 析 比 较 。 这 五 个 特征 值 ， 即 数据 的 最 
大 值 、 最 小 值 、 中 位 数 和 两 个 四 分 位 数 。 
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2. 百 分 位 数 

统计 学 术语 ， 如 果 将 一 组 数据 从 小 到 大 排序 ， 并 计算 相应 的 累计 百 分 位 ， 则 某 
一 百 分 位 所 对 应 数据 的 值 就 称 为 这 一 百 分 位 的 百 分 位 数 。 

对 于 有 序数 据 ， 考 虑 值 集 的 百 分 位 数 更 有 意义 。 具 体 来 说 ， 给 定 一 个 有 序 的 或 连 
续 的 属性 x 和 0 与 100 之 间 的 数 p， 第 p 个 百 分 位 数 x, 是 一 个 x 值 ， 使 得 x 的 p% 的 
观测 值 小 于 %%。 例 如 ， 第 50 个 百 分 位 数 是 值 xiw*， 使 得 x 的 所 有 值 的 50% 小 于 X0 


2.2.2.2 均值 


数据 集 “ 中 心 ”的 最 常见 、 最 有 效 的 数值 度量 是 (算数 ) 均值 。 考 虑 m 个 对 象 
的 集合 和 属性 x， 设 fx, x, e Xa) 是 这 m 个 对 象 的 x 属性 值 ， 设 ay, Xa. > 
Xm} 代表 以 非 递 减 序 排序 后 的 x 值 ， 这 样 ,x ob =min (x) ， 而 x em max (x) ， 
于 是 均值 的 定义 如 下 : 


mean(x)=¥=1 5's, (2-3) 
mia 


尽管 有 时 将 均值 解释 为 极 值 的 中 间 ， 有 时 使 用 截断 均值 概念 。 指 定 0 和 100 之 
间 的 百 分 位 数 p， 丢 弃 高 端 和 低 端 (p/2) % 的 数据 ， 然 后 用 常规 的 方法 计算 均值 ， 
所 得 的 结果 即 是 截断 均值 。 例 如 ， 考 虑 值 集 {1，2，3，4，5，90}。 这 些 值 的 均值 是 
17.5, p=40% 时 的 截断 均值 是 3.5。 


2.2.2.3 方差 与 标准 差 


连续 数据 的 另 一 组 常用 的 汇总 统计 是 值 集 的 弥散 或 散布 度量 。 这 种 度量 表明 属性 
值 是 否 散 布 很 宽 ， 或 者 是 否 相对 集中 在 单个 点 (如 均值 附近 。 

最 简单 的 散布 度量 是 极 差 。 给 定 属 性 x， 它 具有 产 个 值 {xo xo oo, x, x 的 
极 差 定义 为 : 

range (x) =max (x) -min (x) =X im) X (4) (2-4) 

尽管 极 值 标识 最 大 散布 ， 但 是 如 果 大 部 分 值 都 集中 在 一 个 较 窄 的 范围 内 ， 并 且 更 
极端 的 值 个 数 相 对 较 少 ， 则 可 能 会 引起 误解 。 因 此 作为 散布 的 度量 ， 方 差 更 可 取 。 通 
常 ， 属 性 x RAD 值 的 方差 记 作 st:， 并 在 下 面 定 义 。 标 准 差 是 方差 的 平方 根 ， 记 
作 s.， 他 与 x 有 相同 的 单位 。 

1 


variance (x) =s? = z (2-5) 
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均值 可 能 被 离 群 值 扭曲 ， 并 且 由 于 方差 用 均值 计算 ， 因 此 它 对 离 群 值 敏感 。 确 实 ， 
方差 对 离 群 值 特别 敏感 ， 因 为 它 使 用 均值 与 离 群 值 差 的 平方 。 这 样 常常 需要 使 用 比值 
集散 布 更 稳健 的 估计 。 下 面 是 三 种 : 绝对 平均 偏差 (AAD) 、 中 位 数 绝对 偏差 (MAD) 
和 四 分 位 数 极 差 (IQR) 。 


12 


AAD(x)=— 2x -| (2-6) 
i=l 
MAD(x) = median({ļx, -x |, =, |x,-x|}) (2-7) 
IQR (x ) =a x (2-8 ) 
2.2.2.4 高 阶 统计 特性 
1. 基础 知识 
C1) 随机 变量 的 特征 函数 。 若 随机 变量 x 的 分 布 函数 为 下 a) ， 则 称 
GD(0)=E[e™|=| edF (x)= f7 e f(x)dx (2-9) 
为 x 的 特征 函数 。 其 中 f(x) 为 概率 密度 函数 。 
离散 情况 : 
D0)=He™]= Deep, pe = p=) (2-10) 


其 中 ， 特 征 函 数 刻 (x) 是 概率 密度 f(x) 的 傅 里 叶 变 换 。 
(2) 多 维 随机 变量 的 特征 函数 
设 随 机 变量 xo xo vo w KAREDA F Oo o e x) ， 则 联合 
特征 函数 为 
Dlo, 0, =, @,) = Bee = T oA, 2 X) (2-11) 
Sey My tt n o=[o，o，…，oi， 则 和 矩阵 形式 为 
Do) = fe fr (2-12) 
标量 形式 为 
+e p Dy A 
Dlo, a, -, oD=f of e ar fC xd oo, dx, (2-13) 
其 中 , f(x) Sy, x >, x) 为 联合 概率 密度 函数 。 
(3) 随机 变量 的 第 二 特征 函数 
定义 : 特征 函数 的 对 数 为 第 二 特征 函数 的 是 
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VY(w)=n®(w) (2-14) 
1) 单 变量 高 斯 随机 过 程 的 第 二 特征 函数 


1 
aro? 


Po) = Ine z =joa-T oo (2-15) 


2) 多 变量 情形 
Po, @, 0, o)=j$ ao, -过 >coo (2-16) 


il i=l 
2. BUEK AM RAR BAL 
(1) 高 阶 矩 定义 。 


随机 变量 x 的 大 阶 矩 定义 为 

m, = E[x']= J" x4 pode (2-17) 
显然 mal, man-E (x) 。 随 机 变量 x 的 大 阶 中 心 矩 定义 为 

My, = El(x—m)']= |7 Œ- pedax (2-18) 


由 上 式 可 见 ，pm=1，Mm=0，7=o。 
Aim, (kl, 2, «+, n) FE, Wx 的 特征 函数 © Co) 可 按 泰 勒 级 数 展开 ， 即 


(0) =1+ T Joy +00") (2-19) 
k= VY: 
IHL my 5 © (oo) 的 大 阶 导数 之 间 的 关系 为 
k 
m= LO -Cjtoro), kn (220) 
© w=0 


(2) 高 阶 累积 量 定义 
x 的 第 二 特征 函数 平 (w) 按 泰 勒 级 数 展开 ， 有 


Yono =F 0(0" (2.21) 
HH SY w) 的 大 阶 导数 之 间 的 关系 为 


_ 1[d*¥(o) 
Fl dat 


cx 称 为 随机 变量 x 的 大 阶 累积 量 ， 实 际 上 由 @@ (O) =1 RO w) 的 连续 性 ， 存 在 





=F O, k&n (2-22) 


ao=0 


Le 
= 一 | 一 二 ne 
和 Pia E | 








a=0 
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0>0, 使 w<6 时 , @ (w) 40, 故 第 二 特征 函数 下 (wo) =n w) 对 w<5 有 意义 上 且 单 值 (只 
考虑 对 数 函数 的 主 值 ) ，In@ (o) 的 前 n 阶 导数 在 w=0 处 存在 ， 故 c 也 存在 。 

3. 高 阶 累积 量 的 性 质 

高 阶 累积 量具 有 下 列 重要 特性 : 

a) RAEL, 2, =, DARS xl, 2, = n) AMNERE, N 


cum(A,x,, =, 4) =H Aoum(x,, =, x) (2-23) 
(2) 累积 量 关 于 变量 对 称 ， 即 
cum(x,, … x,) =cum(x,, Nye Hy ) (2-24) 


FOP (i, ot 认为 (1，…，k) 中 的 任意 一 种 排列 。 
(3) 累积 量 关于 变量 具有 可 加 性 ， 即 


cum(zo + yy, Zi s Z,)=Cum(z,, Zp "s, Z,)+cum(y, Zp ***, Z) (2-25 ) 
(4) MRA 为 常数 ， 则 

cum(a +z, ***, Z,)=cum(z, ***, Z,) (2-26 ) 
(5) 如 果 随 机 变量 x( 志 1，2，…， 月 与 随机 变量 W 关 1，2，…， 月 相互 独立 ， 则 
cum(x, +y s, X +y) =cum(x,, t, x) +cum(y, t, Vi) (2-27) 

(6) 如 果 随 机 变量 x( 二 1，2，…， 用 中 某 个 子 集 与 补 集 相互 独立 ， 则 
cum(x, =, x,)=0 (2-28 ) 

2.2.3 数据 相关 性 


2.2.3.1 卡 方 相关 性 


两 个 属性 4 和 B 之 间 的 相关 联系 可 以 通过 卡 方 检验 发 现 。 
假设 4 有 m 个 不 同 值 al，a,，…，a,，B 有 nn 个 不 同 值 b,，b,，…，b,。 用 4 和 
B 描 述 的 数据 元 组 可 以 用 一 个 相依 表 显 示 , 其 中 4 的 m 个 值 构 成 列 , B 的 n 个 值 构 成 行 。 
令 (Ay B) 表示 属性 4 Wa, AYE Bb 的 联合 事件 ， 即 (4=a;，B=b,) 。 每 
个 可 能 的 (a;，b;) 联合 事件 都 在 表 中 有 自己 的 单元 。 卡 方 值 可 以 用 下 式 计算 : 
(k, -e 


y -yy (2-29) 


i j=l & 
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其 中 右 是 联合 事件 (4;，B,)〉 的 观测 频 度 〈 即 实际 计数 ) ,而 6; 是 (4;，B) 的 
期 望 频 度 ， 公 式 如 下 : 
PE count (4 =a,)x count (B =, ) coe 


j n 
其 中 , n 是 数据 元 组 的 个 数 ，count (Asa) 是 4 上 具有 值 a 的 元 组 个 数 ， 而 
count(B=b,) 是 B 上 具有 b 的 元 组 个 数 。 卡 方 值 公式 中 的 和 在 左右 nXm 个 单元 上 计算 。 
注意 ， 对 卡 方 值 贡献 最 大 的 单元 是 其 实际 计数 与 期 望 计 数 很 不 同 的 单元 。 
卡 方 统计 检验 假设 4 和 B 是 独立 的 。 检 验 基于 显著 水 平 ， 具 有 自由 度 (mn-1) xX 
Cm-1) 。 如 果 可 以 拒绝 该 假设 ， 则 我 们 说 4 和 B 是 统计 相关 的 。 





[| 
4G 资费 800 (700) 250 (350) 1050 


非 4G 资费 200 (300) 250 (150) 





jee | ww | sa | 1500 


[ (9) 2.1] 下 方 相关 分 析 
假设 调查 了 1500 个 移动 用 户 ， 记 录 了 每 位 用 户 的 性 别 。 对 每 位 用 户 是 否 4G 资 
费 进 行 调研 ， 这 样 我 们 有 两 个 属性 “性 别 ” 和 “是 否 4G 资费 ”。 每 种 可 能 的 联合 事 
件 的 观测 频率 汇总 在 下 面 ， 其 中 括号 中 的 数 是 期 望 频率 。 期 望 频率 根据 两 个 属性 的 数 
据 分 布 用 期 望 频率 公式 计算 。 
事实 上 ， 我 们 可 以 验证 每 个 单元 的 期 望 频率 ， 例 如 单元 ( 男 ，4G 资费 ) 的 期 望 
频率 是 


_ count( 男 )xcount(4G 资 费 ) ”1 000x1 050 _ 


e, 
id n 1500 











如 此 ， 等 等 。 注 意 ， 在 任意 行 ， 期 望 频率 的 和 必须 等 于 该 总 行 观测 频率 ， 并 且 任 
意 列 的 期 望 频率 的 和 也 必须 等 于 该 列 的 总 观测 频率 。 
y2 (800-700) (200-300)' (250-350) _ (250-150) 


700 300 350 150 
=14.29+33.33+28.57+66.67=142.86 


对 于 这 个 2X2 的 表 ， 自 由 度 为 (2-1) X (2-1) =1。 对 于 自由 度 1， 在 0.001 的 
置信 水 平 下 ， 拒 绝 假设 的 值 是 10.828。 由 于 我 们 计算 的 值 大 于 该 值 ， 因 此 我 们 可 以 拒 
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绝 “ 性 别 ” 和 “是 否 4G 资费 ”独立 的 假设 ， 并 断言 对 于 给 定 的 人 群 ， 这 两 个 属性 是 
( 强 ) 相关 的 。 


2.2.3.2 ” 双 变 量 相关 


双 变 量 相关 分 析 中 有 三 种 数据 分 析 : Pearson 相关 系数 、Spearman 相关 系数 和 
Kendall 相关 系数 。 

Pearson: 皮尔 逊 相关 系数 ， 计 算 连 续 变 量 或 等 间距 测度 的 变量 间 的 相关 分 析 ; 
也 可 以 用 来 分 析 分 布 不 明 ， 非 等 间距 测度 的 连续 变量 。 

皮尔 逊 相关 系数 用 来 衡量 两 个 数据 集合 是 否 在 一 条 线 上 面 ， 它 用 来 衡量 定 距 变量 
间 的 线性 关系 。 如 衡量 国民 收入 和 居民 储蓄 存款 、 身 高 和 体重 等 变量 间 关 系 的 密切 程 
度 。 当 两 个 变量 都 是 正 态 连续 变量 ， 而 且 两 者 之 间 呈 线性 关系 时 ， 表 现 这 两 个 变量 之 
间 相关 程度 用 积 差 相 关系 数 ， 记 为 r， 它 定义 为 





(sa)(» -) 
"人 = (2-31) 
Dls) > 
r 称 为 随机 变量 x 与 y 的 样本 相关 系数 。 


根据 观察 到 的 样本 数据 ， 可 以 计算 相关 系数 六 根据 7 值 的 大 小 ， 就 能 够 反映 变 
量 x 与 y 之 间 线 性 关系 的 密切 程度 。r 值 不 同 ， 两 个 变量 的 相关 密切 程度 也 不 同 ， 这 
就 是 相关 系数 的 性 质 ， 具 体内 容 如 下 : 

(1) 当 盖 士 1 时 ， 各 个 点 完全 在 一 条 直线 上 ， 这 时 称 两 个 变量 完全 线性 相关 。 

(2) 4 r-O MY, 这 时 当 x 的 值 增加 时 , y 的 值 也 有 增加 的 趋势 。 两 个 变量 不 相关 ， 
这 时 散 点 图 上 个 点 可 能 毫 无 规律 ， 不 过 也 可 能 两 个 变量 间 存 在 某 种 线性 的 趋势 。 

G) 4 :>0 时 ,两 个 变量 正 相关 ,， 这 时 当 x 的 值 增加 时 , y 的 值 也 有 增加 的 趋势 。 

(4) 当 r<0 时 ， 两 个 变量 负 相 关 ， 这 时 当 x 的 值 增加 时 ，y 的 值 有 减 小 的 趋势 。 

Spearman: 斯 皮尔 曼 相 关系 数 ， 是 根据 秩 而 不 是 根据 实际 值 计 算 的 。 可 用 来 分 析 
数据 资料 不 服从 双 变 量 正 态 分 布 或 总 体 分 布 型 未 知 的 情况 。 

斯 皮尔 曼 相关 系数 又 称 秩 相 关系 数 ， 是 利用 两 变量 的 秩 次 大 小 做 线性 相关 分 
析 ， 对 原始 变量 的 分 布 不 做 要 求 ， 属 于 非 参数 统计 方法 ， 适 用 范围 较 广 。 对 于 服从 
Pearson 相关 系数 的 数据 亦 可 计算 斯 皮尔 曼 相 关系 数 ， 但 统计 效能 要 低 一 些 。 斯 皮尔 
曼 相 关系 数 的 计算 公式 可 以 完全 套用 皮尔 逊 相关 系数 计算 公式 ， 公 式 中 的 x 和 ?了 用 相 
应 的 秩 次 代替 即 可 。 

BA n AMRMB, Hx y: (天 1，2，…，7) 分 别 由 小 到 大 编 秩 。 并 用 P, K 
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AR x; HK, O 表示 yy 的 秩 。 





两 者 秩 和 为 
>YP-yo- mrs) (2-32) 
两 者 平均 秩 为 
p=0., ety (2-33) 
秩 相 关系 数 计算 公式 为 
Dn -E00.) 


r= 





Ee-ry h T o-o. o (2-34 ) 


Kendall: 肯 德 尔 相 关系 数 统计 量 ， 计 算 等 级 变量 间 的 秩 相 关 。 肯 德尔 相关 系数 
可 用 来 分 析 以 下 三 种 情况 : 

C1) 分 布 不 明 ， 非 等 间距 测度 的 连续 变量 ; 

(2) 完全 等 级 的 离散 变量 ; 

Kok 数据 资料 不 服从 双 变 量 正 态 分 布 。 

德尔 相关 系数 又 称 作 和 谐 系 数 ， 也 是 一 种 等 级 相关 系数 ， 其 计算 方法 如 下 : 

rg YN MY, YAX, Yo WR XY HHX, 或 者 > 并且 
XPY,, 则 称 这 两 对 观察 值 是 和 谐 的 ， 否 则 就 是 不 和 谐 的 。 

肯 德 尔 相关 系数 的 计算 公式 如 下 
Nevin Menton 
Ent) (2-35) 


所 有 观察 值 对 中 [ 总 共有 0.5*n* (n-1) 对 ]， 和 谐 的 观察 值 对 减 去 不 和 谐 的 观察 
值 对 的 数量 ， 除 以 总 的 观察 值 对 数 。 


2.2.3.3 Atha 


T= 


偏 相 关 分 析 的 任务 是 在 控制 其 他 变量 的 线性 影响 的 条 件 下 ， 分 析 两 个 变量 之 间 的 
线性 相关 关系 ， 所 采用 的 工具 除了 简单 相关 系数 外 ， 还 有 偏 相 关系 数 。 

在 多 变量 的 情况 下 ， 变 量 之 间 的 相关 关系 是 很 复杂 的 。 相 关 分 析 计 算 两 个 变量 
间 的 相关 系数 ， 分 析 两 个 变量 间 线 性 关系 的 程度 ， 往 往 会 因为 第 三 个 变量 的 作用 ， 
使 相关 系数 并 不 能 真正 反映 两 个 变量 间 的 线性 程度 。 例 如 ， 移 动用 户 的 每 月 ARPU、 





85 | 


| 86 


大 数据 、 数 据 挖掘 与 智慧 运营 


每 月 DOU 和 每 月 MOU 之 间 的 关系 。 使 用 皮尔 逊 相关 计算 其 相关 系数 ， 可 以 得 出 每 

月 ARPU 与 每 月 DOU 和 每 月 MOU 均 存 在 较 强 的 线性 关系 。 但 实际 上 ， 如 果 对 每 月 

ARPU 相同 的 人 ， 分 析 每 月 DOU 和 每 月 MOU， 是 否 每 月 DOU 值 越 大 ， 每 月 MOU 越 

Ave? 结论 是 否定 的 。 正 因为 每 月 DOU 与 每 月 ARPU 有 着 线性 关系 ， 每 月 MOU 与 每 

月 ARPU 存在 线性 关系 ， 从 而 得 出 每 月 DOU 与 每 月 MOU 之 间 存 在 较 强 的 线性 关系 的 

错误 结论 。 因 此 ， 多 变量 相关 分 析 还 要 采用 偏 相 关系 数 。 以 下 则 是 偏 相 关系 数 定义 : 
Wx, y, 2 彼此 相关 ， 则 剔除 变量 z 的 影响 后 ， 变 量 x，y 的 偏 相关 系数 为 


ro Se 
"0 Ma) (2-36) 
同 理 ， 设 x，y，z1，z, 彼此 相关 ， 则 剔除 变量 z,，sz, 的 影响 后 ， 变 量 x，y 的 偏 相 
关系 数 为 

Tem = Mola) — Tes(a) ala) seek 

(i-r l-a) 7 

偏 相关 系数 检验 统计 量 : 

-2 (2-38) 


它 是 服从 自由 度 为 n-k-2 的 1 分 布 ， 记 为 1 : t (n-k-2) (Kk 为 控制 变量 个 数 〉。 











[2.2] 偏 相关 分 析 
考察 客户 每 月 DOU， 每 月 MOU 与 每 月 ARPU 之 间 的 相关 性 。 


相关 性 


当月 ARPU 当 
皮尔 逊 相关 性 1 
显著 性 〈 双 侧 ) 


N 
皮尔 逊 相关 性 
显著 性 〈 双 侧 ) 
N 

皮尔 逊 相关 性 
当月 DOU 显著 性 〈 双 侧 ) 
N 

** 在 0 .01 水 平 〈 双 侧 ) 上 显著 相关 。 
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经 抽样 的 N=11067 的 一 组 样本 如 果 使 用 皮尔 逊 相关 系数 进行 分 析 ， 所 得 结果 每 
月 DOU 与 每 月 MOU 相关 系数 为 0.265， 两 者 显著 相关 (pp- 值 为 0)。 

如 果 以 每 月 ARPU 作为 控制 变量 , 计算 每 月 MOU 与 每 月 DOU 之 间 的 偏向 关系 ， 
并 对 其 进行 检验 ， 所 得 结果 如 下 : 




















2.3.1 ”数据 预 处 理 概述 


数据 预 处 理 ， 是 指 在 主要 的 处 理 以 前 对 数据 进行 的 一 些 处 理 。 现 实 世界 中 数据 大 
体 上 都 是 不 完整 、 不 一 致 的 脏 数据 (因为 数据 库 太 大 , 而 且 多 半 来 自 多 个 异种 数据 源 ) 
它们 无 法 直接 进行 数据 挖掘 ， 或 挖掘 结 果 不 尽 如 人 人意， 而 低 质 量 的 数据 将 导致 低 质 量 
的 数据 挖掘 结果 。 

数据 预 处 理 有 多 种 方法 : 数据 清理 、 数 据 集 成 、 数 据 变换 、 数 据 归 约 等 。 数 据 清 
理 可 以 用 来 清理 数据 挖掘 中 的 噪声 。 数 据 集成 将 数据 由 多 个 数据 源 合并 成 一 个 一 致 的 
数据 存储 ， 如 数据 仓库 。 数 据 归 约 可 以 通过 如 聚集 、 删 除 宛 余 特征 或 聚 类 来 降低 数据 
的 规模 。 数 据 变换 〈 如 规范 化 ) 可 以 用 来 把 数据 压缩 到 较 小 的 区 间 ， 如 [0.0，1.0]。 
这 可 以 提高 涉及 距离 度量 的 挖掘 算法 的 准确 率 和 效率 。 

这 些 数据 处 理 技术 在 数据 挖掘 之 前 使 用 ， 大 大 提高 了 数据 挖掘 模式 的 质量 ， 减 少 
实际 挖掘 所 需要 的 时 间 。 
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23.2 ”数据 预 处 理 的 主要 任务 


数据 预 处 理 的 主要 任务 可 以 概括 为 四 个 内 容 ， 即 数据 清理 、 数 据 集成 、 数 据 规约 
和 数据 变换 。 

在 这 里 我 们 将 对 这 四 个 内 容 做 一 个 大 致 的 介绍 。 

(1) 数据 清理 (Data Cleaning) ， 例 程 通过 填写 缺失 的 值 ， 光 滑 噪 声 数据 ， 识 
别 或 删除 离 群 点 ， 并 解决 不 一 致 性 来 “清理 ”数据 。 如 果 用 户 认为 数据 是 脏 的 ， 则 他 
们 可 能 不 会 相信 这 些 数据 上 的 挖掘 结果 。 此 外 ， 脏 数据 可 能 使 挖掘 过 程 陷入 混乱 ， 导 
致 不 可 靠 的 输出 。 

(2) 数据 集成 (Data Integration) ， 是 把 不 同 来 源 、 格 式 、 性 质 的 数据 在 逻辑 
上 或 物理 上 有 机 地 集中 ， 以 更 方便 地 进行 数据 挖掘 工作 。 数 据 集成 通过 数据 交换 而 达 
到 ， 主 要 解决 数据 的 分 布 性 和 异 构 性 问题 。 数 据 集成 的 程度 和 形式 也 是 多 种 多 样 的 ， 
对 于 小 的 项 目 ， 如 果 原 始 的 数据 都 存在 不 同 的 表 中 ， 数 据 集成 的 过 程 往往 是 根据 关键 
字段 将 不 同 的 表 集 成 到 一 个 或 几 个 表格 中 ， 而 对 于 大 的 项 目 则 有 可 能 需要 集成 到 单独 
的 数据 仓库 中 。 

G) 数据 归 约 (Data Reduction) ， 得 到 数据 集 的 简化 表示 ， 虽 小 得 多 ， 但 能 够 
产生 同样 的 (或 几乎 同样 的 ) 分 析 结 果 。 数 据 归 约 策略 包括 维 归 约 和 数值 归 约 。 在 维 
归 约 中 ， 使 用 减少 变量 方案 ， 以 得 到 原始 数据 的 简化 或 “压缩 ”表示 。 比 如 ， 采 用 主 
成 分 分 析 技 术 减 少 变 量 ， 或 通过 相关 性 分 析 去 掉 相 关 性 小 的 变量 。 数 值 归 约 ， 则 主要 
指 通过 样本 筛选 ， 减 少数 据 量 ， 这 也 是 常用 的 数据 归 约 方案 。 

(4) 数据 变换 ， (Data Transformation) 是 将 数据 从 一 种 表现 变 为 另 一 种 表 
现形 式 的 过 程 。 假 设 你 决定 使 用 诸如 神经 网 络 、 最 近邻 分 类 或 聚 类 这 样 的 基于 距 
离 的 挖掘 算法 进行 建 模 或 挖掘 ， 如 果 待 分 析 的 数据 已 经 规范 化 ， 即 按 比例 映射 到 
一 个 较 小 的 区 间 ， 如 [0.0，1.0]， 则 这 些 方 法 将 得 到 更 好 的 结果 。 问 题 是 往往 各 变 
量 的 标准 不 同 , 数据 的 数量 级 差异 比较 大 , 在 这 样 的 情况 下 , 如 果 不 对 数据 进行 转化 ， 
显然 模型 反映 的 主要 是 大 数量 级 数据 的 特征 ， 所 以 通常 还 需要 灵活 地 对 数据 进行 
转换 。 

值得 一 提 的 是 ， 虽 然 数 据 预 处 理 主要 分 为 以 上 四 个 方面 的 内 容 ， 但 它们 之 间 并 不 
是 互 扩 的。 例如， 元 余数 据 的 删除 既是 一 种 数据 清理 ， 也 是 一 种 数据 归 约 。 数 据 清理 
可 能 涉及 纠正 错误 数据 的 变换 ， 如 通过 把 一 个 数据 字段 的 所 有 项 都 变换 公共 格式 进行 
数据 清理 。 
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2.3.3 ”数据 清理 


数据 清理 例 程 通过 填写 缺失 的 值 、 光 滑 噪声 数据 、 识 别 或 删除 离 群 点 并 解决 不 一 
致 性 来 “清理 ”数据 ， 主 要 是 达到 如 下 目标 : 格式 标准 化 、 异 常数 据 清 除 、 错 误 纠正 、 
重复 数据 清除 。 


2.3.3.1 缺失 值 


对 数据 挖掘 的 实际 应 用 而 言 ， 即 使 数据 量 很 大 ， 具 有 完整 数据 的 案例 子 集 仍 可 能 
相对 较 小 ， 可 用 的 样本 和 将 来 的 事件 都 可 能 有 缺失 值 。 一 个 明显 的 问题 是 ， 在 应 用 数 
据 挖掘 方法 之 前 的 数据 准备 阶段 ， 能 否 把 这 些 缺 失 值 补 上 。 

最 简单 的 解决 办 法 是 去 除 包含 缺失 值 的 所 有 样本 。 但 如 果 不 想 去 除 有 缺失 值 的 样 
本 ， 就 必须 找到 它们 的 缺失 值 。 这 可 以 采用 什么 实用 方法 呢 ? 

数据 挖掘 者 和 领域 内 专家 可 手动 检查 缺失 值 样本 ， 再 根据 经 验 加 入 一 个 合理 的 、 
可 能 的 、 预 期 的 值 。 对 缺失 值 较 少 的 小 数据 集 ， 这 种 方法 简单 明了 。 但 是 ， 对 于 缺 
失 程度 较 严重 的 情形 ， 依 靠 经 验 来 手动 添补 缺失 值 是 十 分 困难 的 ， 并 且 可 能 引入 较 大 
噪声 。 

另 一 种 方法 ， 是 消除 缺失 值 的 一 个 更 简单 的 解决 方案 ， 这 种 方法 基于 一 种 形式 ， 
常常 是 用 一 些 常量 自动 替换 缺失 值 。 如 : 

(1) 用 一 个 全 局 常量 〈 全 局 常量 的 选择 与 应 用 有 很 大 关系 ) 替换 所 有 的 缺失 值 。 

(2) 用 特征 平均 值 替换 缺失 值 。 

G) 用 给 定 种 类 的 特征 平均 值 替换 缺失 值 《 此 方法 仅 用 于 样本 预先 分 类 的 分 类 
问题 ) 。 

这 些 简 单方 法 都 具有 诱惑 力 。 它 们 的 主要 缺点 是 蔡 代 值 并 不 正确 。 用 常量 替换 缺 
失 值 或 改变 少数 不 同 特征 的 值 ， 数 据 就 会 有 误差 。 替 代 值 会 均 化 带 有 缺失 值 的 样本 ， 
给 缺失 值 最 多 的 类 别 〈 人 工 类 别 ) 生成 一 致 的 子 集 。 如 果 所 有 特征 的 缺失 值 都 用 一 个 
全 局 常量 来 蔡 代 ， 一 个 未 知 值 可 能 会 暗中 形成 一 个 未 经 客观 证 明 的 正 因数 。 

对 缺失 值 的 一 个 可 能 的 解释 是 ， 它 们 是 “无 关 紧 要 ”的 。 换 句 话 说， 我 们 假定 这 
些 值 对 最 终 的 数据 挖掘 结果 没有 任何 影响 。 这 样 ， 一 个 有 缺失 值 的 样本 可 以 扩展 成 一 
组 人 工 样 本 ， 对 这 组 样本 中 的 每 个 新 样本 ， 都 用 给 定 区 域 中 一 个 可 能 的 特征 值 来 蔡 换 
缺失 值 。 这 样 的 解释 也 许 看 起 来 更 加 自然 ， 但 这 种 方法 的 问题 在 于 人 工 样本 的 组 合 爆 
炸 。 例 如 ， 如 果 有 个 三 维 样本 二 {1，2，3}， 其 中 第 二 个 特征 的 值 缺 失 ， 这 种 处 理会 
在 特征 域 [0，1，2，3，4] 内 产生 5 个 人 工 样本 : 
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X, ={L 0,3}, X,= {L13} X= {L 2 3} X,= {13,3}, X,= {1,4,3} (2-39) 

数据 挖掘 者 可 以 生成 一 个 预测 模型 ， 来 预测 每 个 缺失 值 。 例 如 ， 如 果 每 个 样本 给 
定 3 个 特征 A、B、C， 则 数据 挖掘 者 可 以 根据 把 3 个 值 全 都 作为 一 个 训练 集 的 样本 ， 
生成 一 个 特征 之 间 的 关系 模型 。 不 同 技术 的 选择 取决 于 数据 类 型 ， 如 衰减 、 贝 叶 斯 形 
式 体系 、 聚 类 、 决 策 树 归 纳 法 。 一 旦 有 了 训练 好 的 模型 ， 就 可 以 提出 一 个 包含 缺失 值 
的 新 样本 ， 并 产生 “预测 ” 值 。 如 果 缺 失 值 与 其 他 已 知 特征 高 度 相 关 ， 这 样 的 处 理 就 
可 以 为 特征 生成 最 合适 的 值 。 当 然 ， 如 果 缺 失 值 总 是 能 准确 地 预测 ， 就 意味 着 这 个 特 
征 在 数据 集中 是 元 余 的 ， 在 进一步 的 数据 挖掘 中 是 不 必要 的 。 在 现实 的 应 用 中 ， 带 有 
缺失 值 的 特征 和 其 他 特征 之 间 的 关联 应 是 不 完全 的 。 因 此 ， 不 是 所 有 的 自动 方法 都 可 
以 补 上 正确 的 缺失 值 。 但 这 样 的 自动 方法 在 数据 挖掘 界 最 受 欢 迎 。 与 其 他 方法 相 比 
它们 能 最 大 限度 地 使 用 当前 数据 的 信息 预测 缺失 值 。 

一 般 来 讲 , 用 简单 的 人 工 数据 准备 模式 来 蔡 代 缺失 值 是 有 风险 的 , 常常 会 有 误导 。 
最 好 对 带 有 和 不 带 有 缺失 值 的 特征 生成 多 种 数据 挖掘 解决 方案 ， 然 后 对 它们 进行 分 析 
和 解释 。 


2.3.3.2 ”噪声 数据 


噪声 数据 (Noisy Data) 是 数据 观测 的 过 程 中 随机 误差 产生 的 ， 包 括 孤 立 点 和 错 
误 点 。 引 起 噪声 数据 的 原因 可 能 是 硬件 故障 、 编 程 错误 或 者 语音 或 光学 字符 识别 程序 
COCR) 中 的 乱码 。 拼 写 错误 、 行 业 简称 和 伸 语 也 会 阻碍 机 器 读 取 。 品 声 数据 的 存 
在 是 正常 的 ， 但 会 影响 变量 真 值 的 反映 ， 所 以 有 时 候 需 要 对 这 些 噪声 数据 进行 过 滤 。 

噪声 数据 处 理 是 数据 预 处 理 的 一 个 重要 环节 ， 我 们 通常 采用 分 箱 、 回 归 、 离 群 点 
分 析 等 方法 来 平滑 处 理 数据 。 

C1) 分 箱 (Binning) , 通过 考察 属性 值 的 周围 值 来 平滑 属性 的 值 。 属 性 被 分 布 
到 一 些 等 深 或 等 宽 的 箱 中 ， 用 箱 中 属性 值 的 平均 值 或 边界 值 来 替换 箱 中 的 属性 值 。 
图 2-4 展示 了 几 种 数据 平滑 技术 。Price 数据 首先 排序 并 被 划分 到 大 小 为 4 的 等 频 的 
箱 中 《〈 即 每 个 箱包 含 4 个 值 ) 。 对 于 用 箱 均值 平滑 ， 箱 中 每 一 个 值 都 被 替换 为 箱 中 的 
均值 ， 例 如 : 箱 1 中 的 值 2，7，12，15 的 均值 是 9， 因 此 ， 该 箱 中 的 每 一 个 值 都 被 
替换 为 9。 对 于 用 箱 边界 光滑 ， 给 定 箱 中 的 最 大 值 和 最 小 值 被 视 为 箱 边 界 ， 而 箱 中 的 
每 个 值 都 被 蔡 换 为 最 近 的 边界 值 。 一 般 而 言 ， 宽 度 越 大 ， 光 滑 效 果 越 明显 。 箱 也 可 以 
是 等 宽 的 ， 每 个 箱 的 区 间 宽 度 均 相同 。 分 箱 也 是 一 种 散 化 技术 。 

(2) 回归 (Regression〉: 通过 观测 数据 拟 合 某 一 函数 来 平滑 数据 ， 这 种 技术 称 
为 回归 。 线 性 回归 涉及 找 出 拟 合 两 个 属性 的 “最 佳 ” 直线 ， 使 得 一 个 属性 可 以 用 来 预 
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测 另 一 个 属性 。 多 元 线性 回归 是 线性 回归 的 扩充 ， 其 中 涉及 的 属性 多 于 两 个 ， 并 且 数 
据 拟 合 到 一 个 多 维 曲面 。 





排序 后 的 数据 : 2, 7, 12, 15, 19, 19, 24, 28, 34, 35, 37, 46 
划分 为 (等 频 的 ) 箱 : 

H 1: 2,7, 12,15 

箱 2: 19, 19, 24, 28 

箱 3: 34, 35, 37, 46 

箱 均值 光滑 : 

, 9,9,9 

2:55 22.5». 22.5, 22.5 

8, 38, 38 








8 ot a ee a 





图 2-4 分 箱 法 


(3) BRAS HT (Outlier Analysis) : 可 以 通过 如 聚 类 来 检测 离 群 点 。 聚 类 将 
类 似 的 值 组 织 成 “ 簇 ”。 如 图 2-5 所 示 ， 显 示 3 DAR, BEM, ERRAZA 
的 值 被 视 为 离 群 点 。 





2-5 离 群 点 分 析 


23.4 数据 集成 


数据 通过 应 用 间 的 数据 交换 从 而 达到 集成 ， 主 要 解决 数据 的 分 布 性 和 异 构 性 的 问 
题 ， 其 前 提 是 被 集成 应 用 必须 公开 数据 结构 ， 即 必须 公开 表 结 构 、 表 间 关 系 、 编 码 的 
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含义 等 。 

在 企业 中 ， 由 于 开发 时 间或 开发 部 门 的 不 同 ， 往 往 有 多 个 异 构 的 、 运 行 在 不 同 的 
软 硬 件 平台 上 的 信息 系统 同时 运行 ， 这 些 系统 的 数据 源 彼此 独立 、 相 互 封闭 ， 使 得 数 
据 难 以 在 系统 之 间 交 流 、 共 享 和 融合 ， 从 而 形成 了 “信息 孤岛 ”。 随 着 信息 化 应 用 的 
不 断 深入 ， 企 业内 部 、 企 业 与 外 部 信息 交互 的 需求 日 益 强烈 ， 急 切 需 要 对 已 有 的 信息 
进行 整合 ， 联 通 “ 信 息 孤 岛 ”， 共 享 信息 。 而 在 共享 数据 整合 数据 的 同时 ， 就 会 出 现 
数据 元 余 、 元 组 重复 等 问题 。 


2.3.4.1 数据 元 余 


数据 宛 余 是 指 同一 个 数据 在 系统 中 多 次 重复 出 现 。 简 单 来 说 ， 就 是 多 个 地 方 重复 
存储 相同 数据 。 这 种 情况 一 般 在 数据 库 上 表现 明显 。 比 如 一 个 表 A 结构 为 : 班级 ， 
学 号 ， 姓 名 。 另 一 表 B 结构 为 姓名， 科目， 成 绩 。 这 样 的 两 张 表格 就 有 “姓名 ” 
字段 的 数据 见 余 。 

在 文件 系统 中 ， 由 于 文件 之 间 没 有 联系 ， 有 时 一 个 数据 在 多 个 文件 中 出 现 ， 而 数 
据 库 系 统 则 克服 了 文件 系统 的 这 种 缺陷 ， 但 仍然 存在 数据 元 余 问题 。 消 除数 据 宛 余 的 
目的 是 为 了 避免 更 新 时 可 能 出 现 的 问题 ， 以 便 保持 数据 的 一 致 性 。 

1. 数据 宛 余 的 类 型 

一 般 而 言 图像 、 视 频 、 音 频数 据 中 存在 的 数据 见 余 类 型 主要 有 以 下 六 种 。 

(1) 空间 见 余 : 图 像 数 据 中 经 常 出 现 的 一 种 元 余 。 空 间 宛 余 是 静态 图 像 中 存在 
的 最 主要 的 一 种 数据 元 余 。 在 同一 幅 图 像 中 ， 规 则 物体 和 规则 背景 〈 所 谓 规则 ， 是 指 
表面 是 有 序 的 而 不 是 完全 杂乱 无 章 的 排列 ) 的 表面 物理 特性 具有 相关 性 ， 数 字 化 图 像 
中 表现 为 数据 元 余 。 例 如 一 幅 静 态 图 像 中 的 一 大 片 蓝天 、 草 地 ， 其 中 每 个 像素 的 数据 
完全 相同 ， 如 果 逐 点 存储 ， 就 会 产生 所 谓 的 空间 元 余 。 完 全 一 样 的 数据 当然 可 以 压缩 ， 
十 分 接近 的 数据 也 可 以 压缩 ， 因 为 被 压缩 的 数据 恢复 后 人 眼 也 分 辨 不 出 与 原来 的 图 片 
有 什么 区 别 ， 这 种 压缩 就 是 对 空间 元 余 的 压缩 。 

(2) 时 间 宛 余 : 这 是 序列 图 像 (电视 图 像 、 运 动 图 像 》 和 语音 数据 中 经 常 包含 
的 见 余 。 在 电视 、 动 画图 像 中 ， 在 相 邻 帧 之 间 往 往 包含 了 相同 的 背景 ， 只 不 过 运动 物 
体 的 位 置 略 有 变换 。 因 此 对 于 序列 图 像 中 的 相 邻 两 帧 仅 记录 它们 之 间 的 差异 ， 去 掉 其 
中 重复 的 、 称 为 时 间 宛 余 的 那 部 分 信息 。 同 样 ， 由 于 人 在 说 话 时 产生 的 音频 也 是 连续 
和 渐变 的 ， 因 此 声音 信息 中 也 会 存在 时 间 宛 余 。 

(3) 结构 元 余 : 有 些 图 像 大 体 上 看 存在 非常 强 的 纹理 结构 ， 例 如 草 席 图 像 ， 我 
们 称 之 为 结构 元 余 。 
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(4) RTR: 有 许多 图 像 的 理解 与 某 些 基础 知识 有 相当 大 的 相关 性 。 例 如 : 
人 脸 的 图 像 有 固定 的 结构 。 比 如 说 嘴 的 上 方 有 鼻子 ， 鼻 子 的 上 方 有 了 眼睛， 鼻子 位 于 脸 
的 中 线 上 ， 等 等 。 这 类 规律 性 的 结构 可 由 先 验 知识 和 背景 知识 得 到 ， 我 们 称 之 为 知识 
TURo 

(5) 视觉 元 余 : 是 由 于 人 体 器 官 的 不 敏感 性 造成 的 。 例 如 在 高 亮度 下 ， 人 的 视 
觉 灵敏 度 下 降 ， 对 灰 度 值 的 表示 就 可 以 粗糙 一 些 。 对 于 太 强 太 弱 的 声音 ， 如 果 超出 了 
“ 阔 值 ”， 人 们 听觉 感受 也 会 被 掩蔽 。 利 用 感官 上 的 这 些 特性 ， 也 可 以 压缩 掉 部 分 数 
据 而 不 被 人 们 感知 〈 觉 察 ) 。 

(6) fa TCR: 又 可 称 为 编码 见 余 ， 是 指 一 组 数据 携带 的 平均 信息 量 。 正 因 
为 多 媒体 数据 中 存在 着 上 述 的 各 种 各 样 的 元 余 ， 所 以 多 媒体 数据 是 可 以 被 压缩 的 。 针 
对 不 同 的 元 余 ， 人 们 已 经 提出 各 种 各 样 的 方法 实施 对 多 媒体 数据 的 压缩 。 

2. 增加 数据 宛 余 的 目的 

一 般 情况 下 ， 应 尽量 减少 数据 匈 余 ， 保 证 数据 的 一 致 性 ， 但 在 某 些 情况 下 ， 也 需 
要 适当 增加 数据 元 余 度 。 其 目的 有 以 下 九 种 。 

(1) 对 数据 进行 元 余 性 的 编码 来 防止 数据 的 丢失 或 错误 ， 并 提供 对 错误 数据 进 
行 反 变换 以 得 到 原始 数据 的 功能 。 

(2) 为 简化 流程 所 造成 额 数 据 元 余 。 例 如 ， 向 多 个 目的 发 送 同样 的 信息 、 在 多 
个 地 点 存放 同样 的 信息 ， 而 不 对 数据 进行 分 析 以 减少 工作 量 。 

G) 为 加 快 处 理 过 程 而 将 同一 数据 存放 在 不 同 地 点 。 例 如 并 行 处 理 同一 信息 的 
不 同 内 容 ， 或 用 不 同方 法 处 理 同一 信息 等 。 

(4) 为 方便 处 理 而 使 同一 信息 在 不 同 地 点 有 不 同 表现 形式 。 例 如 一 本 书 的 不 同 
语言 的 版 本 。 

(5) 大 量 数据 的 索引 , 一 般 在 数据 库 中 经 常 使 用 。 其 目的 类 似 第 (4) 点 。 

(6) 方法 类 的 信息 匈 余 : 比如 : 每 个 司机 都 要 记 住 同一 城市 的 基本 交通 信息 ; 
大 量 个 人 电脑 都 安装 类 似 的 操作 系统 或 软件 。 

D 为 了 完备 性 而 配备 的 见 余数 据 。 例 如 : 字典 里 的 字 很 多 ， 但 我 们 只 查询 其 
中 很 少 的 一 些 字 。 软 件 功能 很 多 ， 但 我 们 只 使 用 其 中 一 部 分 。 

(8) 规则 性 的 元 余 。 根 据 法 律 、 制 度 、 规 则 等 约束 进行 的 。 例 如 合同 中 大 量 的 
模式 化 的 内 容 。 

O) 为 达到 其 他 目的 所 进行 的 元 余 。 例 如 ， 重 复 信息 以 达到 被 重视 等 。 

数据 元 余 或 者 信息 元 余 是 生产 、 生 活 必然 存在 的 行为 ， 没 有 好 与 不 好 的 说 法 。 元 
余 是 数据 集成 的 一 个 重要 问题 。 一 个 属性 〈 如 年 收入 ) 如 果 能 由 另 一 个 或 另 一 组 属性 
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“导出 ”， 则 这 个 属性 可 能 是 元 余 的 。 属 性 或 维 命名 的 不 一 致 也 可 能 导致 数据 集中 的 
见 余 。 

有 些 元 余 可 以 被 相关 分 析 检 测 到 。 例 如 ， 给 定 两 个 属性 ， 根 据 可 用 的 数据 ， 这 种 
分 析 可 以 度量 一 个 属性 能 在 多 大 程度 上 蕴含 另 一 个 。 对 于 标 称 数据 ， 我 们 使 用 卡 方 检 
验 。 对 于 数值 属性 ， 我 们 使 用 相关 系数 和 协 方差 ， 它 们 都 评估 一 个 属性 的 值 如 何 随 另 
一 个 变化 5 


2.3.4.2 元 组 重复 


除了 检测 属性 间 的 元 余 外 ， 还 应 当 在 元 组 级 检测 重复 (例如 ， 对 于 给 定 的 唯一 数 
据 实体 ， 存 在 两 个 或 多 个 相同 的 元 组 )。 

元 组 是 关系 数据 库 中 的 基本 概念 ， 关 系 是 一 张 表 ， 表 中 的 每 行 〈 即 数据 库 中 的 每 
条 记录 ) 就 是 一 个 元 组 ， 每 列 就 是 一 个 属性 。 在 二 维 表 里 ， 元 组 也 称 为 记录 。 

去 规范 化 表 的 使 用 (这样 做 通常 是 通过 避免 连接 来 改善 性 能 ) 是 数据 元 余 的 另 一 
个 来 源 。 不 一 致 通常 出 现在 各 种 不 同 的 副本 之 间 ， 由 于 不 正确 的 数据 输入 ， 或 者 由 于 
更 新 了 数据 的 某 些 出 现 ， 但 未 更 新 所 有 的 出 现 。 例 如 : 如 果 订 单数 据 库 包含 订货 人 的 
姓名 和 地 址 属性 ， 而 不 是 这 些 信息 在 订货 人 数据 库 中 的 码 ， 则 差异 就 可 能 出 现 ， 如 同 
一 订货 人 的 名 字 可 能 以 不 同 的 地 址 出 现在 订单 数据 库 中 。 


23.5 ”数据 规约 


对 于 中 小 型 数据 集 而 言 ， 之 前 提 到 的 数据 挖掘 准备 中 的 预 处 理 步骤 通常 足够 了 。 
但 对 于 真正 意义 上 的 大 型 数据 集 , 在 应 用 数据 挖掘 技术 之 前 , 还 需要 执行 一 个 中 间 的 、 
额外 的 步骤 一 一 数据 归 约 。 虽 然 大 型 数据 集 可 能 得 到 更 佳 的 挖掘 结 果 ， 但 未 必 能 获得 
比 小 型 数据 集 更 好 的 挖掘 结果 。 

数据 规约 就 是 从 特征 、 样 本 和 特征 值 三 个 方面 考虑 ， 通 过 删除 行 、 删 除 列 、 减 
少 特征 取 值 来 达到 压缩 数据 规模 的 目的 。 通 过 数据 规约 技术 可 以 得 到 数据 集 的 规约 表 
示 ， 它 小 得 多 ， 但 仍 更 接近 保持 原始 数据 的 完整 性 ， 包 含 的 信息 和 原始 数据 差不多 。 
这 样 ， 对 规约 后 的 数据 进行 挖掘 将 更 有 效 ， 并 产生 相同 〈 或 几乎 相同 ) 的 分 析 结 果 。 


2.3.5.1 主 成 分 分 析 


主 成 分 分 析 (Principal Component Analysis, PCA) ， 将 多 个 变量 通过 线性 变换 
以 选 出 较 少 个 数 重 要 变量 的 一 种 多 元 统计 分 析 方 法 。 又 称 主 分 量 分 析 。 


第 2 章 数据 统计 与 数据 预 处 理 





假设 待 归 约 的 数据 由 用 n 个 属性 或 维 描述 的 元 组 或 数据 向 量 组 成 。 主 成 分 分 析 搜 
索 个 最 能 代表 数据 n 的 维 正 交 向 量 , Sk <n, 原 数据 投影 到 一 个 小 得 多 的 空间 上 ， 
导致 维 归 约 。 与 属性 子 集 选择 2.3.5.3 节 ) 通过 保留 原 属性 集 的 一 个 子 集 来 减少 属性 
集 的 大 小 不 同 ，PCA 通过 创建 一 个 蔡 换 的 、 较 小 的 变量 集 “组合” 属性 的 基本 要 素 。 
原 数 据 可 以 投影 到 该 较 小 集合 中 。PCA 常常 能 够 揭示 先前 未 曾 察觉 的 联系 ， 并 因此 
允许 解释 不 寻常 的 结果 。 

基本 过 程 如 下 : 

(1) 对 输入 数据 规范 化 ， 使 得 每 个 属性 都 落 入 相同 的 区 间 。 此 步 有 助 于 确保 具 
有 较 大 定义 区 域 的 属性 不 会 支配 具有 较 小 定义 区 域 的 属性 。 

(2) PCA 计算 大 个 标准 正 交 向 量 ， 作 为 规范 化 输入 数据 的 基 。 这 些 是 单位 向 量 ， 
每 一 个 都 垂直 于 其 他 向 量 。 这 些 向 量 称 为 主 成 分 。 输 入 数据 是 主 成 分 的 线性 组 合 。 

(3) 对 主 成 分 按 “ 重 要 性 ”或 强度 降序 排列 。 主 成 分 本 质 上 充当 数据 的 新 坐标 系 ， 
提供 关于 方差 的 重要 信息 。 也 就 是 说 ， 对 坐标 轴 进 行 排序 ， 使 得 第 一 个 坐标 轴 显 示 数 
据 的 最 大 方差 ， 第 二 个 显示 数据 的 次 大 方差 ， 依 次 下 去 。 

(4) 既然 主 成 分 根据 “重要 性 ”降序 排列 ， 那 么 就 可 以 通过 去 掉 较 弱 的 成 分 〈 即 
方差 较 小 的 那些 ) 来 归 约 数据 。 使 用 最 强 的 主 成 分 ， 应 当 能 够 重 构 原 数据 。 

PCA 可 以 用 于 有 序 和 无 序 的 属性 ， 并 且 可 以 处 理 稀疏 和 倾斜 数据 。 多 于 二 维 的 
多 维 数据 可 以 通过 将 问题 归 约 为 二 维 问题 来 处 理 。 主 成 分 可 以 用 作 多 元 回归 和 聚 类 分 
析 的 输入 。 与 小 波 变 换 相 比 ，PCA 能 够 更 好 地 处 理 稀疏 数据 ， 而 小 波 变换 更 适合 高 
维 数据 。 


2.3.5.2 小 波 变 换 


离散 小 波 变换 (DWT) 是 一 种 线性 信号 处 理 技 术 ， 用 于 数据 向 量 天 时， 将 它 变 
换 成 不 同 的 数值 小 波 系数 向 量 科 ，”。 两 个 向 量具 有 相同 的 长 度 。 当 这 种 技术 用 于 数据 
归 约 时 ， 每 个 元 组 看 作 一 个 n 维 数据 向 量 ， 即 X= Cy, ap oy x) ， 描 述 个 数据 
库 属 性 在 元 组 上 的 n 个 测量 值 1。 

离散 小 波 变换 的 一 般 过 程 使 用 一 种 层次 金字 塔 算法 Pyramid Algorithm) ， 它 在 
每 次 欠 代 时 将 数据 减 半 ， 导 致 计算 速度 很 快 。 该 方法 如 下 : 

O) 输入 数据 向 量 的 长 度 必 须 是 2 的 整数 寡 。 必 要 时 ， 通 过 在 数据 向 量 后 添加 
0 补足 数据 。 

(2) 每 个 变换 涉及 应 用 两 个 函数 。 第 一 个 使 用 某 种 数据 光滑 , 如 求 和 或 加 权 平 均 。 
第 二 个 进行 加 权 差分 ， 提 取 数 据 的 细节 特征 。 
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G) 两 个 函数 作用 于 对 中 的 数据 点 对 ， 即 作用 于 所 有 的 测量 对 C%;,%in ) 这 导致 
两 个 长 度 为 L/2 的 数据 集 。 一 般 而 言 ， 它 们 分 别 代 表 输 入 数据 的 光滑 后 的 版 本 或 低频 
版 本 和 它 的 高 频 内 容 。 

(4) 两 个 函数 递归 地 作用 于 前 面 循环 得 到 的 数据 集 ， 直 到 得 到 的 结果 数据 集 的 
长 度 为 2。 

(5) 由 以 上 迁 代 得 到 的 数据 集中 选择 的 值 被 指定 为 数据 变换 的 小 波 系数 。 

离散 小 波 变换 与 离散 傅 里 叶 变换 相近 , 后 者 也 是 一 个 信号 处 理 技术 。 但 一 般 来 讲 ， 
小 波 变换 具有 更 高 的 有 损 压 缩 性 能 。 也 就 是 给 定 同一 组 数据 向 量 〈 相 关系 数 ) ， 利 用 
小 波 变 换 所 获得 的 (恢复 ) 数据 更 接近 原始 数据 。 


2.3.5.3 ”属性 子 集 选择 


降低 维度 的 另 一 种 方法 是 仅 使 用 一 个 子 集 。 尽 管 看 起 来 这 种 方法 可 能 丢失 信息 ， 
但 存在 元 余 或 不 相关 特征 的 时 候 ， 情 况 并 非 如 此 。 宛 余 特 征 重 复 了 包含 在 一 个 或 多 个 
其 他 属性 中 的 许多 或 所 有 信息 。 例 如 ， 客 户 所 使 用 的 套餐 名 称 与 套餐 ID 包含 许多 相 
同 的 信息 。 不 相关 特征 包含 对 于 手头 的 数据 挖掘 任务 几乎 完全 没 用 的 信息 ， 例 如 ， 客 
户 的 ID 号 码 对 于 预测 客户 的 信用 等 级 是 不 相关 的 。 宛 余 和 不 相关 的 特征 可 能 降低 分 
类 的 准确 率 ， 影 响 所 发 现 的 聚 类 的 质量 。 

属性 子 集 选 择 通 过 删除 不 相关 或 元 余 的 属性 (或 维 ) 减少 数据 量 。 属 性 子 集 选择 
的 目标 是 找 出 最 小 属性 集 ， 使 得 数据 类 的 概率 分 布 尽 可 能 地 接近 使 用 所 有 属性 得 到 的 
原 分 布 。 在 缩小 的 属性 集 上 挖掘 还 有 其 他 的 优点 : 它 减少 了 出 现在 发 现 模式 上 的 属性 
数目 ， 使 得 模式 更 易于 理解 。 

(1) 逐步 向 前 选择 : 该 过 程 由 空 属性 集 作为 归 约 集 开 始 ， 确 定 原 属性 集中 最 好 
的 属性 ， 并 将 它 添加 到 归 约 集中 。 在 其 后 的 每 一 次 迭代 ， 将 剩 下 的 原 属性 集中 的 最 好 
的 属性 添加 到 该 集合 中 。 

(2) 逐步 向 后 删除 :该 过 程 由 整个 属性 集 开 始 。 在 每 一 步 中 ， 删 除 尚 在 属性 集 
中 最 差 的 属性 。 

G) 逐步 向 前 选择 和 逐步 向 后 删除 的 组 合 : 可 以 将 逐步 向 前 选择 和 逐步 向 后 删 
除 方法 结合 在 一 起 , 每 一 步 选择 一 个 最 好 的 属性 , 并 在 剩余 属性 中 删除 一 个 最 差 的 属性 。 

(4) 决策 树 归 纳 : 决策 树 算法 (例如 ，ID3、C4.5 和 CART) 最 初 是 用 于 分 类 的 。 
决策 树 归纳 构造 一 个 类 似 于 流程 图 的 结构 ， 其 中 每 个 内 部 〈 非 树叶 ) 结 点 表示 一 个 属 
性 上 的 测试 ， 每 个 分 枝 对 应 测试 的 一 个 结果 ; 每 个 外 部 (树叶 ) 结 点 表示 一 个 类 预测 。 
在 每 个 结 点 上 ， 算 法 选择 “最 好 ”的 属性 ， 将 数据 划分 成 类 。 
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当 决 策 树 归纳 用 于 属性 子 集 选 择 时 ， 由 给 定 的 数据 构造 决策 树 。 不 出 现在 树 中 的 
所 有 属性 假定 是 不 相关 的 。 出 现在 树 中 的 属性 形成 归 约 后 的 属性 子 集 。 

这 些 方法 的 结束 条 件 可 以 不 同 。 该 过 程 可 以 使 用 一 个 度量 阔 值 来 决定 何 时 停止 属 
性 选择 过 程 。 在 某 些 情况 下 ， 我 们 可 能 基于 其 他 属性 创建 一 些 新 属性 。 这 种 属性 构造 
可 以 帮助 提高 准确 性 和 对 高 维 数据 结构 的 理解 。 通 过 组 合 属性 ， 属 性 构造 可 以 发 现 关 
于 数据 属性 间 联 系 的 缺失 信息 ， 这 对 知识 发 现 是 有 用 的 。 


2.3.6 ”数据 变换 和 离散 化 


2.3.6.1 数据 归 一 化 /标准 化 的 主要 方法 


数据 归 一 化 /标准 化 处 理 是 数据 挖掘 的 一 项 基础 工作 ， 是 一 种 常见 的 变量 变换 
类 型 。 

不 同 评价 指标 往往 具有 不 同 的 量 纲 和 数量 级 ， 而 所 用 的 度量 单位 可 能 影响 数据 分 
析 ， 导 致 完全 不 同 的 结果 。 一 般 而 言 ， 用 较 小 的 单位 表示 属性 将 导致 该 属性 具有 较 大 
值 域 ， 因 此 趋向 于 使 这 样 的 属性 具有 较 大 的 影响 或 较 高 的 “权重 ”。 为 了 帮助 避免 对 
度量 单位 选择 的 依赖 性 ， 数 据 应 该 标准 化 。 这 涉及 变换 数据 ， 使 之 落 入 较 小 的 共同 区 
间 ， 如 [0.0，1.0]。 

标准 化 数据 试图 赋予 所 有 属性 相等 的 权重 。 对 于 涉及 神经 网 络 的 分 类 算法 或 基于 
距离 度量 的 分 类 和 聚 类 ， 标 准 化 特别 有 用 。 对 于 基于 距离 的 方法 ， 标 准 化 可 以 帮助 防 
止 具有 较 大 初始 值 的 属性 与 具有 较 小 初始 值 域 的 属性 相 比 权重 过 大 。 标 准 化 也 适用 于 
没有 数据 的 先 验 知识 情况 。 

有 许多 数据 规范 化 的 方法 ， 如 min-max 标准 化 、z-score 标准 化 和 小 数 定 标 标 准 
化 等 。 经 过 上 述 标准 化 处 理 ， 去 除数 据 的 单位 限制 ， 原 始 数据 均 转 换 为 无 量 纲 的 纯 数 
值 , 即 各 指标 值 都 处 于 同一 个 数量 级 别 上 , 便于 不 同 单位 或 量 级 的 指标 能 够 进行 比较 、 
加 权 等 综合 测评 分 析 。 

S 4 是 数值 属性 ， 具 有 个 观测 值 tetto 

以 下 是 三 种 主要 方法 。 

1. min-max 标准 化 

min-max 标准 化 ， 也 叫 离 差 标准 化 ， 对 原始 数据 进行 线性 变换 。 假 设 min 和 
max, 分 别 为 属性 4 的 最 小 值 和 最 大 值 。min-max 标准 化 通过 计算 : 
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ii, a 
"max, —min, 


把 4 的 值 x; 映 射 到 区 间 [new_min,, new_max,] 中 的 x 。 这 种 方法 有 一 个 缺陷 
就 是 当 有 新 数据 加 入 时 ， 可 能 导致 max 和 min 的 变化 ， 需 要 重新 定义 。 


x (new_max, —new_min,)+new_min, (2-40) 








【 例 2.3】 
假设 每 月 DOU 的 最 小 值 与 最 大 值 分 别 为 12000 和 89000。 我 们 想 把 每 月 DOU 

映射 到 区 间 [0.0，1.0]。 根 据 min-max 标准 化 ， 每 月 DOU 值 85000 将 变换 为 
85000-12000 


39000-12000 (1.0-0) +0-0.948 





2. z-score 标准 化 

z-score 标准 化 ， 是 最 常见 的 标准 化 方法 ， 也 叫 标准 差 标准 化 ，SPSS 默认 的 标准 
化 方法 就 是 z-score 标准 化 。 在 z-score 标准 化 中 ， 属 性 4 的 值 基于 4 的 均值 〈 即 平均 
值 )》 和 标准 差 标准 化 。4 的 值 x; 被 标准 化 为 x ， 经 过 处 理 的 数据 符合 标准 正 态 分 布 ， 
即 均值 为 0， 标准 差 为 1， 由 下 式 计算 : 





X= 二 (2-41) 


Oa 
其 中 ，Z 和 6 分 别 为 属性 4 MEREN, IPAn txt) M o 


用 4 的 方差 平方 根 计 算 。z-score 标准 化 方法 适用 于 属性 4 的 实际 最 大 值 和 最 小 值 未 
知 的 情况 ， 或 有 超出 取 值 范围 的 离 群 数据 情况 。 








【 例 2.4】 
假设 每 月 DOU 的 均值 和 标准 差分 别 为 54000 和 16000。 使 用 z-score 标准 化 ， 每 


85000-54000 
A DOU 值 85000， 被 转换 为 iwo s : 


上 式 的 标准 差 可 以 用 均值 绝对 偏差 替换 。 A 的 均值 绝对 偏差 54 定义 为 


sa alh-Aep—4e~+p. 4) aa 


这 样 ， 使 用 均值 绝对 差 的 二 分数 规划 为 





让 = 时 (2-43) 
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3. 小 数 点 标准 化 
通过 移动 属性 4 的 值 的 小 数 点 位 置 进行 标准 化 。 小 数 点 的 移动 位 数 依赖 于 4 的 
最 对 绝对 值 。4 的 值 x 被 标准 化 为 尺 ， 由 下 式 计 算 : 
tat 


Tor (2-44) 


其 中 , 7 是 满足 条 件 ， 即 max (|x'|) <1 的 最 小 整数 。 








[ Bi 2.5] 
假设 4 的 取 值 自 -886 到 654, A 的 最 大 绝对 值 为 886。 因 此 ， 为 使 小 数 定 标 标 
准 化 ， 我 们 用 1000 (EP 广 3 ) 除 每 个 值 。 因 此 ，-886 被 标准 化 为 -0.886， 而 654 被 
标准 化 为 0.654。 





TE: 标准 化 会 对 原始 数据 做 出 改变 ， 因 此 需要 保存 所 使 用 的 标准 化 方法 的 参数 ， 
以 便 对 后 续 的 数据 进行 统一 的 标准 化 。 


2.3.6.2 ”数据 离散 化 的 主要 方法 


离散 化 方法 可 以 根据 如 何 进行 离散 化 加 以 分 类 ， 如 根据 是 否 使 用 类 信息 。 如 果 离 
散 过 程 使 用 类 信息 ， 则 称 他 为 监督 的 离散 化 ; 否则 是 非 监督 的 离散 化 。 主 要 方法 如 下 ; 

1. 非 监督 离散 化 的 方法 

如 果 不 使 用 类 信息 ， 则 主要 使 用 一 些 相 对 简单 的 方法 。 如 ， 等 宽 方 法 将 属性 的 值 
域 划分 成 具有 相同 宽度 的 区 间 ， 而 区 间 的 个 数 由 用 户 指定 。 这 种 方法 可 能 受 离 群 点 的 
影响 而 性 能 不 佳 ， 因 此 等 频率 或 等 深 方法 通常 更 为 可 取 。 等 频率 方法 试图 将 相同 数量 
的 对 象 放 进 每 个 区 间 。 作 为 非 监督 离散 化 的 另 一 个 例子 ， 可 以 使 用 诸如 天 均值 等 聚 
类 方法 。 最 后 ， 目 测 检查 数据 有 时 也 是 一 种 有 效 的 方法 。 

2. 监督 离散 化 的 方法 

炉 是 最 常用 于 确定 分 割 点 的 度量 ， 基 于 炉 的 方法 是 最 有 前 途 的 离散 化 方法 之 一 ， 
以 下 将 给 出 一 种 简单 的 基于 粹 的 方法 。 

EH, ENR. Bk EDEKA m 是 某 划 分 的 第 i 个 区 间 中 值 的 个 数 ， 
而 m; 是 区 间 i 中 类 jj 的 值 的 个 数 。 第 i 个 区 间 的 炉 e 由 如 下 等 式 给 出 : 


天 
e =-) p, log, P, (2-45) 


ja 
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其 中 ，P = 沁 是 第 ;个 区 间 中 类 /的 值 的 比例 。 该 划分 的 中 糯 e 是 每 个 区 间 业 的 
加 权 平均 ， 即 


e=y we (2-46) 
i=l 


Rp, m 是 指 的 个 数 ， 芭 = 一 是 第 1 个 区 间 的 什 的 比例 ， 而 n 是 区 间 个 数 。 直 观 
上 ,区间 的 炳 是 区 间 纯 度 的 度量 。 如 果 一 个 区 间 只 包含 一 个 类 的 值 ( 该 区 间 非 常 纯 )， 
WERA 0 并 且 不 影响 总 。 如 果 一 个 区 间 中 的 值 类 出 现 的 频率 相等 (该 区 间 尽 可 能 
不 纯 ) ， 则 其 炳 最 大 。 

开始 ， 将 初始 值 切 分 成 两 部 分 ， 让 两 个 结果 区 间 产 生 最 小 的 箭 。 该 技术 只 需要 把 
每 个 值 看 作 可 能 的 分 割 点 即 可 ,因为 假定 区 间 包 含有 序 值 的 集合 。 然 后 ， 取 一 个 区 间 ， 
通常 选取 具有 较 大 炉 的 区 间 , 重复 此 分 割 过 程 , 直到 区 间 的 个 数 达到 用 户 指定 的 个 数 ， 
或 满足 终止 条 件 。 


数据 相对 于 数据 挖掘 的 成 败 至 关 重 要 。 通 常 ， 原 始 数据 经 过 基础 的 预 处 理 操作 就 
能 应 用 于 挖掘 分 析 ， 但 也 存在 经 过 基础 数据 预 处 理 后 仍 不 能 满足 建 模 需求 或 者 原始 字 
段 所 包含 信息 量 不 能 直接 展现 的 情况 。 在 这 种 情况 下 ， 数 据 字段 的 衍生 和 数据 的 重新 
采集 是 两 种 较为 有 效 的 解决 方案 ， 其 中 数据 字段 衍生 相 比 于 数据 重新 采集 在 时 间 成 本 
和 人 工 成 本 上 更 具 优势 。 数 据 字段 的 衍生 ， 即 从 源 字段 中 创造 一 些 包含 重 要 信息 的 新 
字段 集 。 这 也 是 改善 数据 质量 的 一 种 高 效 的 方法 。 新 的 字段 数量 一 般 要 比 源 字段 少 ， 
这 也 使 我 们 可 以 获得 字段 约 减 所 有 的 好 处 。 同 时 ， 字 段 衍生 更 有 效 地 捕获 数据 集中 的 
重要 信息 ， 为 后 期 的 挖掘 分 析 提供 了 良好 的 数据 基础 。 

以 分 类 预测 算法 为 例 ， 在 实际 应 用 中 ， 如 何 判 断 一 般 的 数据 预 处 理 操作 不 能 满足 
建 模 分 析 需 求 呢 ? 相关 性 分 析 是 比较 常用 的 判断 方法 。 在 2.2 节 中 我 们 已 经 详细 阐述 
了 相关 性 的 基础 概念 与 计算 方法 ， 这 里 就 不 再 著述 。 我 们 主要 是 通过 计算 原始 数据 字 
段 与 目标 字段 的 相关 性 来 判断 ， 当 大 部 分 字段 的 相关 性 低 于 判决 阔 值 ， 而 数据 字段 又 
难以 扩张 采集 时 ， 数 据 字 段 的 衍生 就 成 了 此 类 困境 的 有 效 解决 方案 。 本 节 着 重 介绍 数 
据 字段 衍生 的 几 种 常用 方法 : 数据 字段 的 拆 分、 统计 特征 的 构造 和 数据 域 的 变换 。 
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241 数据 字段 的 拆 分 


数据 字段 的 拆 分 是 对 包含 多 重信 息 量 字段 的 拆 分 ， 以 实现 隐 含 信息 量 的 显现 化 。 
这 不 同 于 传统 数据 库 中 数据 拆 分 的 概念 ， 数 据 库 中 的 数据 拆 分 是 指 通过 某 种 特定 的 条 
件 ， 将 存放 在 同一 个 数据 库 中 的 数据 分 散 存 放 到 多 个 数据 库 〈 主 机 ) 上 面 ， 以 达到 
分 散 单 台 设 备 负载 的 效果 。 数 据 拆 分 的 同时 还 可 以 提高 系统 的 总 体 可 用 性 ， 因 为 单 
台 设 备 出 现 故 障 之 后 ， 只 有 总 体 数 据 的 某 部 分 不 可 用 ， 而 不 是 所 有 的 数据 。 数 据 拆 
分 也 是 实现 数据 库 分 布 式 设计 的 一 种 有 效 方案 。 但 本 文中 的 数据 字段 的 拆 分 是 针对 
数据 挖掘 中 数据 预 处 理 部 分 而 言 ， 对 蕴含 多 重信 息 的 字段 直接 进行 拆 解 ， 以 获取 更 大 
的 信息 量 。 

以 移动 客户 套餐 资费 名 称 为 例 ，“ 预 付费 神州 行 本 地 套餐 38 元 档 ” 和 “后 付费 
动感 地 带 上 网 套餐 8 元 档 ” 这 两 个 取 值 ， 除 了 作为 字段 名 称 这 一 属性 外 ， 通 过 拆 分 我 
们 可 以 得 到 付费 类 型 (预付 费 和 后 付费 ) 、 品 牌 名 称 〈 神 州 行 和 动感 地 带 ) 、 套 餐 类 
型 〈 本 地 套餐 和 上 网 套餐 ) 和 套餐 金额 〈38 元 档 和 8 元 档 ) 共 四 个 属性 ， 即 通过 拆 
分 细 化 客户 特征 ， 获 取 属性 中 的 隐 含 信息 。 


2.4.2 ”统计 特征 的 构造 


数据 集中 的 某 些 原始 字段 有 必要 的 信息 ， 但 并 不 适合 直接 应 用 于 数据 挖掘 算法 。 
这 种 情况 通常 需要 从 原始 字段 中 构造 一 个 或 多 个 新 字段 使 用 。 采 用 线性 或 非 线性 的 数 
学 变换 方法 将 数据 字段 进行 转换 ， 衍 生出 新 的 字段 ， 消 除 它们 在 时 间 、 空 间 、 属 性 及 
精度 等 特征 表现 方面 的 差异 。 这 类 方法 虽然 对 原始 数据 都 有 一 定 的 损害 ， 但 其 结果 往 
往 具有 更 大 的 实用 性 。 通 过 统计 特征 构造 新 的 字段 是 常用 的 方法 之 一 ， 日 常 工作 中 行 
之 有 效 的 特征 字段 构造 的 方法 主要 有 微分 法 、 均 值 法 和 方差 法 等 。 

(1) 微分 法 。 针 对 连续 变量 ， 当 原始 变量 值 在 挖掘 中 意义 不 够 突出 时 ， 可 考虑 
微分 法 。 一 阶段 微分 表征 数据 字段 取 值 增加 或 减 小 的 快慢 ; 二 阶段 微分 表征 数据 字段 
取 值 增加 或 减 小 速度 的 大 小 ， 以 此 增加 字段 实用 性 。 

(2) 均值 法 。 对 于 字段 属性 较 多 ， 不 考虑 数据 字段 变化 的 潮汐 效应 时 ， 一 般 可 
以 通过 求 取 均 值 的 方法 对 同一 类 型 属性 字段 实现 降 维 处 理 。 

G) 方差 法 。 方 差 是 反映 随机 变量 与 其 期 望 值 的 偏离 程度 的 数值 ， 是 随机 变量 
各 个 可 能 值 对 其 期 望 值 的 离 差 平方 的 数学 期 望 。 
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243 ”数据 域 的 变换 


学 过 通信 原理 的 人 大 多 对 数据 域 变换 有 比较 深入 的 了 解 ， 但 数据 域 变换 到 底 是 
怎么 回 事 呢 ? 简单 来 说 ， 就 是 数据 映射 到 新 的 空间 。 举 个 例子 ， 时 间 序 列 数据 经 
常 包含 周期 模式 ， 如 果 只 有 一 种 周期 模式 ， 并 且 噪 声 不 多 ， 这 样 的 周期 模式 就 比 
较 容易 被 侦 测 到 。 相反, 如 果 有 很 多 周期 模式 且 存 在 大 量 噪声 数据 , 这 就 很 难 侦 测 。 
在 这 样 的 情况 下 ， 通 常 对 时 间 序 列 使 用 侍 里 叶 变 换 (Fourier Transform) 转换 表示 
方法 ， 将 它 转 成 频率 信息 明显 的 表示 特征 ， 这 样 就 能 侦 测 到 这 些 模式 的 明显 特征 ， 如 
图 2-6。 





lin 300 = 








O 102030405060708090 
时 间 ( 秒 ) 时 间 ( 秒 ) 频率 
Ca) 两 个 时 间 序列 (b) 噪声 时 间 序列 (c) 功率 频谱 


1 y L 15 1 1 1 1 
0 02 04 06 08 1 0 02 04 06 08 1 


图 2-6 时间 序 列 的 傅 里 叶 变 换 


这 就 是 使 用 一 种 完全 不 同 的 角度 挖掘 分 析 数 据 潜 在 的 有 趣 和 关键 特征 。 再 举 个 移 
动 运 营 商 实际 应 用 的 例子 ， 中 国 移动 流量 套餐 种 类 繁杂 ， 各 类 套餐 均 有 其 存在 价值 与 
意义 。 以 流量 包 年 包 和 包 季 包 为 例 ， 尤 其 是 流量 不 清 零 政策 出 台 以 来 ， 用 户 对 流量 包 
的 选取 日 益 细 化 。 对 于 流量 包 年 包 或 包 季 包 ， 从 时 间 上 入 手 分 析 其 适用 人 群 ， 客 户 特 
征 不 易 抓 取 ， 但 从 频 域 角度 看 ， 即 进行 傅 里 叶 变换 后 ， 离 散 的 频 域 点 则 对 客户 有 很 好 
的 区 分 。 如 某 用 户 的 流量 使 用 情况 呈现 时 间 上 的 周期 性 变化 ， 一 周 内 周 六 和 有 周 日 流量 
使 用 明显 高 于 工作 日 ， 但 从 时 域 出 发 ， 流 量 的 周期 性 特征 不 易 描 述 ， 此 时 将 流量 的 使 
用 经 傅 里 叶 变化 转化 到 频 域 则 能 够 得 到 流量 使 用 的 特征 。 

数据 域 的 变换 也 可 以 采用 其 他 类 型 的 变换 。 除 了 传 里 叶 变换 以 外 ， 对 于 时 间 序 列 
和 其 他 类 型 的 数据 ， 经 过 验证 小 波 变换 也 是 非常 实用 的 。 
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2.5.1 缺失 值 的 实 操 处 理 


对 于 含有 缺失 值 的 数据 ， 我 们 在 实际 处 理 的 时 候 ， 主 要 有 两 种 处 理 方法 : 一 是 直 
接 删除 该 属性 ， 二 是 补充 缺失 值 。 删 除 字段 的 方法 一 般 不 推荐 使 用 ， 因 为 会 减少 原始 
数据 的 信息 量 ， 只 有 当 该 属性 缺失 值 比例 确实 过 高 或 者 确定 该 字段 与 所 研究 的 问题 不 
相关 时 ， 才 可 以 使 用 删除 字段 的 方法 处 理 缺 失 值 。 

关于 补充 缺失 值 ， 有 很 多 方法 ， 比 如 用 均值 、 中 位 数 补充 ， 线 性 插值 法 补充 ， 缺 
失 点 的 线性 趋势 等 。 下 面 用 “当月 可 用 余额 ”为 例 ， 讲 解 如 何 用 SPSS 中 的 均值 法 补 
充 缺 失 值 。 

1. 发 现 缺 失 值 

(1) 对 于 每 一 个 字段 ， 都 应 该 先 观察 是 否 有 缺失 值 。 具 体 做 法 为 : 单 击 “ 分 
析 ” 一 “描述 统计 ”一 “频率 ”， 见 图 2-7。 


ss Samant u meS- au SPS Sas RS 
wn Bey BRE KD tew aey Kee READ som me 
dA Dom el m a Oey I 
1 anaoa — 
APO) GROG ET inves aaa ao REA =| wae oy) Eman 
š: ne ry 








SEELI 
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图 2-7 单 击 “ 频 率 ” 


(2) 观察 “当月 可 用 余额 ”在 “频率 ”中 的 输出 结果 。 
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统计 量 
当月 可 用 余额 
有 效 |11066 
po h 








x 由 结果 可 知 ， 该 字段 有 3 个 缺失 值 。 


Et = 2. 填补 缺失 值 
加 
= — 月 可 用 余额 ” 放 在 “新 变量 (N) ”中 ,“ 名 称 (A)” 


ERRAR 
pA 中 显示 的 “当月 可 用 余额 _1” 即 为 补充 过 缺失 值 
MUD Karna 之 后 新 生成 字段 的 名 称 。“ 方 法 M) ”选择 “ 序 
列 均 值 ”， 单 击 “确定 ”， 如 图 2-8 所 示 。 

新 生成 的 “当月 可 用 余额 1” 即 为 用 均值 法 
补充 缺失 值 后 的 字段 。 


La ) wien, anm na an 
图 2-8 “替换 缺失 值 ”对 话 框 





2.5.2 ”噪声 数据 的 实 操 处 理 


对 于 噪声 数据 ， 我 们 一 般 的 处 理 方 法 就 是 找 出 噪声 数据 并 删除 ， 以 减少 其 对 于 数 
据 分 析 的 影响 。 

(1) 观察 数据 分 布 散 点 图 ， 看 是 否 有 离 群 点 存在 。 以 “当月 DOU” 为 例 。 

画 出 以 “用 户 ID ”为 横 轴 ,“ 当 月 DOU” 为 纵 轴 的 散 点 图 。 有 具体 操作 为 : 单 击 “ 图 
形 ” 一 “图 表 构 建 程序 ”， 如 图 2-9 所 示 。 








Lesjaan san ea an a 


图 2-9 “图 表 构建 程序 ”对 话 框 


观察 “当月 DOU” 的 数学 分 布 情况 ， 如 图 2-10 所 示 ， 即 可 观察 到 明显 的 离 群 点 。 
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图 2-10 “当月 DOU” 的 数学 分 布 情况 


(2) 右键 单 击 该 离 群 点 ， 单 击 “ 转 至 个 案 ”。 找 到 奇异 值 个 案 ， 右 键 删 除 即 可 。 


2.5.3 ” 主 成 分 分 析 的 实 操 处 理 


(1) 单 击 “ 分 析 ” 一 “ 降 维 ”一 “因子 分 析 ”， 如 图 2-11 所 示 。 
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2-11 单 击 “ 因 子 分 析 ” 
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(2) 将 需要 降 维 分 析 的 变量 放 入 “变量 (V) ”， 右 边 的 “抽取 ”中 ， 勾 选 “ 碎 
AA”, “因子 的 固定 数量 ” 即 为 希望 寻找 的 主 成 分 的 个 数 ， 单 击 “ 确 定 ”， 如 图 2-12 
所 示 。 
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图 2-12 “因子 分 析 ” 对 话 框 


3. 结果 解读 
(1) 解释 的 总 方差 


解释 的 总 方差 


二 HE 
o ppsa fsan ET sa 
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提取 方法 : 主 成 分 分 析 。 





成 分 1-5 即 为 降 维 后 新 生成 的 主 成 分 ， 每 个 成 分 对 应 的 方差 ， 反 映 的 是 对 应 成 分 
对 于 原始 数据 信息 量 的 贡献 程度 。 方 差 的 百分比 越 大 ， 证 明 该 主 成 分 能 更 好 地 解释 
原始 数据 的 信息 。 原 始 为 5 个 变量 ， 如 果 使 用 5 个 新 生成 的 主 成 分 表示 ， 那 么 就 是 
没有 降 维 ， 也 就 是 没有 信息 损失 ， 所 以 当 降 维 前 后 变量 个 数 一 样 时 ， 累 计 的 反差 为 
100%. 

(2) 碎 石 图 

图 2-13 碎 石 图 反映 的 也 是 对 应 的 主 成 分 的 “价值 ”， 即 对 于 原始 数据 信息 的 反 
映 程度 ， 用 特征 值 来 表示 。 特 征 值 越 大 ， 对 于 主 成 分 越 能 反映 原始 信息 。 


第 2 章 ”数据 统计 与 数据 预 处 理 
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提取 方法 : 主 成 分 。 
a. DERT 4 个 成 分 。 


该 表 反映 的 是 新 生成 的 主 成 分 是 如 何 计算 出 来 的 。 例 如 ， 主 成 分 1 就 是 用 表 中 的 
系数 乘 以 对 应 的 原始 变量 后 再 求 和 相 加 得 到 的 。 
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所 谓 聚 类 ， 就 是 将 相似 的 事物 聚集 在 一 起 ， 而 将 不 相似 的 事物 划分 到 不 同 的 类 别 
的 过 程 ， 是 数据 分 析 中 十 分 重要 的 一 种 手段 。“ 物 以 类 聚 ， 人 以 群 分 ”， 在 自然 科学 
和 社会 科学 中 ， 存 在 着 大 量 的 分 类 问题 。 聚 类 分 析 又 称 群 分 析 ， 它 是 研究 〈 样 品 或 指 
标 ) 分 类 问题 的 一 种 统计 分 析 方 法 。 聚 类 分 析 起 源 于 分 类 学 ， 但 聚 类 不 等 于 分 类 。 聚 
类 与 分 类 的 不 同 在 于 ， 聚 类 所 要 求 划分 的 类 是 未 知 的 。 聚 类 分 析 内 容 非 常 丰富 ， 本 章 
3.1 节 概括 叙述 了 聚 类 算法 ， 以 便 读 者 对 聚 类 算法 有 总 体 认识 ; 3.2 WPA TLE 
估 的 方法 和 度量 标准 ; 3.3 节 详 细 介绍 了 经 典 的 聚 类 算法 一 一 K-means 的 原理 、 优 缺点 、 
优化 办 法 以 及 在 SPSS 软件 中 的 操作 过 程 ; 3.4 节 、3.5 节 、3.6 节 分 别 对 基于 层次 化 、 
密度 和 网 格 的 聚 类 算法 阐述 了 算法 原理 和 各 自 的 优 缺 点 。 


在 讨论 具体 的 聚 类 技术 之 前 ， 我 们 先 提供 必要 的 背景 知识 。 首 先 ， 我 们 进一步 定 
义 聚 类 分 析 ， 解 释 它 的 困难 所 在 ， 并 站 述 它 与 其 他 数据 分 组 技术 之 间 的 关系 。 然 后 ， 
考察 两 个 重要 问题 : d) 将 数据 对 象 集 划 分 成 能 集合 的 不 同方 法 ， 〈2) 簇 的 类 型 。 

1. 什么 是 聚 类 分 析 

聚 类 分 析 仅 根据 在 数据 中 发 现 的 描述 对 象 及 其 关系 的 信息 ， 将 数据 对 象 分 组 。 其 
目标 是 ， 组 内 的 对 象 相互 之 间 是 相似 的 (相关 的 ) ， 而 不 同 组 中 的 对 象 是 不 同 的 (不 
相关 的 ) 。 组 内 的 相似 性 〈 同 质 性 ) 越 大 ， 组 间 差 别 越 大 ， 聚 类 就 越 好 。 

在 许多 应 用 中 , 簇 的 概念 都 没有 很 好 地 加 以 定义 。 为 了 理解 确定 艇 构造 的 困难 性 ， 
图 3-1 显示 了 相同 点 集 的 不 同 聚 类 方法 。 该 图 显示 了 20 个 点 和 将 它们 划分 成 簇 的 3 
种 不 同方 法 。 标 记 的 形状 指示 簇 的 隶属 关系 。 然 而 ， 将 2 个 较 大 的 簇 都 划分 成 3 个 子 
簇 可 能 是 人 的 视觉 系统 造成 的 假象 。 此 外 ， 说 这 些 点 形成 4 个 入 可 能 也 不 无 道理 。 该 
图 表明 簇 的 定义 是 不 精确 的 ， 而 最 好 的 定义 依赖 于 数据 的 特性 和 期 望 的 结果 。 

聚 类 分 析 与 其 他 将 数据 对 象 分 组 的 技术 相关 。 如 ， 聚 类 可 以 看 作 一 种 分 类 ， 它 
AK GG) 标号 创建 对 象 的 标记 。 然 而 ， 只 能 从 数据 导出 这 些 标号 。 相 比 之 下 ， 第 4 
章 的 分 类 是 监督 分 类 (Supervised Classification) ， 即 使 用 出 类 标号 已 知 的 对 象 开发 
的 模型 ， 对 新 的 、 无 标记 的 对 象 赋予 类 标号 。 为 此 ， 有 时 称 聚 类 分 析 为 非 监督 分 类 
(Unsupervised Classification) 。 在 数据 挖掘 中 ， 不 附加 任何 条 件 使 用 术语 分 类 时 ， 
通常 是 指 监督 分 类 。 此 外 ， 尽 管 术语 分 割 (Segmentation) MRJ) (Partitioning) 有 


时 也 用 作 聚 类 的 同义词 , 但 这 些 术 语 通常 用 来 表示 传统 的 聚 类 分 析 之 外 的 方法 。 例如， 
术语 划分 通常 用 在 将 图 分 成 子 图 相关 的 技术 ， 与 聚 类 并 无 太 大 联系 。 分 割 通常 指使 用 
简单 的 技术 将 数据 分 组 。 例 如 ， 图 像 可 以 根据 像素 亮度 或 颜色 分 割 ， 人 可 以 根据 他 们 
的 收入 分 组 。 尽管 如 此 , 图 划分 、 图 像 分 割 和 市 场 分 割 的 许多 工作 都 与 聚 类 分 析 有 关 。 
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图 3-1 相同 点 集 的 不 同 聚 类 方法 


2. 不同 的 聚 类 类 型 

整个 簇 集合 通常 称 作 聚 类 ， 本 节 我 们 将 区 分 不 同类 型 的 聚 类 : BIN REW) 
与 划分 的 〈 非 嵌 套 的 ) ， 互 斥 的 、 重 县 的 与 模糊 的 ， 完 全 的 与 部 分 的 。 

层次 的 与 划分 的 不 同类 型 的 聚 类 之 间 最 常 讨论 的 差别 是 : PEMA REIN, 
BEEREK: 或 者 用 更 传统 的 术语 ， 是 层次 的 还 是 划分 的 。 划 分 聚 类 (Partitional 
Clustering) 简单 地 将 数据 对 象 集 划分 成 不 重 登 的 子 集 〈 徐 ) ， 使 得 每 个 数据 对 象 恰 在 一 
个 子 集中 。 如 果 人 允许 簇 具 有 子 筷 ， 则 我 们 得 到 一 个 层次 聚 类 (Hierarchical Clustering) o 
层次 聚 类 是 典 套 艇 的 集 科 ， 组 织 成 一 棵 树 。 除 叶 结 点 外 ， 树 中 每 一 个 结 点 〈 簇 ) 都 是 其 
FX (Fi) 的 并 集 ， 而 树 根 是 包含 所 有 对 象 的 秘 。 通 常 〈 但 并 非 总 是 ) ， 树 叶 是 单个 
数据 对 象 的 单元 素 艇 。 如 果 人 允许 艇 嵌 套 ， 最 后 ， 层 次 聚 类 可 以 看 作 划 分 聚 类 的 序列 ， 划 
分 聚 类 可 以 通过 取 序 列 的 任意 成 员 得 到 ， 即 通过 在 一 个 特定 层 剪断 层次 树 得 到 。 

互 扩 的、 重复 的 与 模糊 的 : 图 3-1 显示 的 簇 都 是 互 斥 的 (Exclusive》， 因 为 每 个 
对 象 都 指派 到 单个 徐 。 在 有 些 情况 下 ， 可 以 合理 地 将 一 个 点 放 到 多 个 簇 中 ， 这 种 情况 
可 以 被 非 互 斥 聚 类 更 好 地 处 理 。 在 最 一 般 的 意义 下 ， 重 苹 的 (Over Lapping) 或 非 互 
Fei (Non-Exclusive) 聚 类 用 来 反映 个 对 象 同时 属于 多 个 组 (K) 这 一 事实 。 例 如 ， 
在 大 学 里 ， 一 个 人 可 能 既是 学 生 ， 又 是 雇员 。 当 对 和 象 在 两 个 或 多 个 簇 之 间 ， 并 且 可 以 
合理 地 指派 到 这 些 簇 中 的 任何 一 个 时 ， 也 常常 可 以 使 用 非 互 斥 聚 类 。 

在 模糊 聚 类 (Fuzzy Clustering) 中 , 每 个 对 象 以 一 个 0( 绝 对 不 属于 ) 和 1( 绝 对 属于 ) 
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之 间 的 隶属 权 值 属 于 每 个 和 能。 换言之 ， 秘 被 视 为 模糊 集 NSE LI, ERM, 
每 个 对 象 以 0 和 1 之 间 的 权 值 属 于 任何 一 个 集合 。 在 模糊 聚 类 中 ， 通 常 施加 一 个 约束 
条 件 : 每 个 对 象 的 权 值 之 和 必须 等 于 1) 。 同 理 ， 概 率 聚 类 技术 计算 每 个 点 属于 每 个 
PEE, 并 且 这 些 概率 的 和 必须 等 于 1。 由 于 任何 对 象 的 隶属 权 值 或 概率 之 和 等 于 1， 
因此 模糊 和 概率 聚 类 并 不 能 真正 地 解决 一 个 对 象 属于 多 个 类 的 多 类 问题 ， 例 如 学 生 雇 
员 。 这 些 方法 最 适合 如 下 情况 : 当 对 象 接近 多 个 艇 时 ， 避 免 将 对 象 随意 地 指派 到 一 个 
徐 。 实 践 中 ， 通 常 通过 将 对 象 指派 到 具有 最 高 隶属 权 值 或 概率 的 徐 ， 将 模糊 或 概率 聚 
类 转换 成 互 斥 聚 类 。 

完全 的 与 部 分 的 完全 聚 类 (Complete Clustering) 将 每 个 对 象 指派 到 一 个 驴 ， 而 
部 分 聚 类 (Partial Clustering) 不 是 这 样 。 促 进 部 分 聚 类 的 因素 是 ， 数 据 集中 某 些 对 象 
可 能 属于 明确 定义 的 组 。 数 据 集中 的 一 些 对 象 可 能 代表 噪声 、 离 群 点 或 “不 感 兴趣 的 
背景 ”。 例 如 ， 一 些 报刊 报道 可 能 涉及 公共 主题 ， 如 全 球 变 暖 ， 而 其 他 报道 则 报道 一 
般 的 一 类 事 。 这 样 ， 为 了 发 现 上 月 报道 最 重要 的 主题 ， 我 们 可 能 希望 只 搜索 与 公共 主 
题 紧密 相关 的 文档 禾 。 在 其 他 情况 下 ， 需 要 对 和 象 的 完全 聚 类 。 例 如 ， 使 用 聚 类 组 织 用 
于 浏览 文档 的 应 用 ， 必 须 保证 能 够 浏览 所 有 的 文档 。 

3. BW KAY 

RAS RSA AI MARA OH) ,这 里 有 用 性 由 数据 挖 抉 目标 定义 。 毫 无 疑问 ， 
有 许多 不 同 的 簇 概念 ， 实 践 证 明 都 是 有 用 的 。 为 了 以 可 视 方式 说 明 这 些 簇 类 型 之 间 的 
差别 ， 我 们 使 用 二 维 数据 点 作为 我 们 的 数据 对 象 。 然 而 ， 我 们 强调 的 是 ， 这 里 介绍 的 
簇 类 型 同样 适用 于 其 他 数据 。 

明显 分 离 的 簇 是 对 象 的 集合 ， 其 中 每 个 对 象 到 同 徐 中 每 个 对 象 的 距离 比 到 不 同 簇 
中 任意 对 象 的 距离 都 近 《〈 或 更 加 相似 ) 。 有 了 时， 使 用 一 个 阔 值 来 说 明 簇 中 所 有 对 和 象 相 
互 之 间 必 须 充分 接近 (或 相似 ) 。 仅 当 数 据 包含 相互 远离 的 自然 簇 时 ， 徐 的 这 种 理想 
定义 才能 满足 。 

基于 原型 的 簇 是 对 象 的 集合 ， 其 中 每 个 对 象 到 定义 该 簇 的 原型 的 距离 比 到 其 
他 簇 的 原型 距离 更 近 或 更 加 相似 ) 。 对 于 具有 连续 属性 的 数据 ， 簇 的 原型 通常 是 
质心 ， 即 簇 中 所 有 点 的 平均 值 。 当 质心 没有 意义 时 (如 当 数 据 具 有 分 类 属性 时 )， 
原型 通常 是 中 心 点 ， 即 簇 中 最 有 代表 性 的 点 。 对 于 许多 数据 类 型 ， 原 型 可 以 视 为 
最 靠近 中 心 的 点 : 在 这 种 情况 下 ， 通 常 把 基于 原型 的 簇 看 作 基 于 中 心 的 簇 (Center- 
Based Cluster) 。 毫 无 疑问 ， 这 种 簇 趋向 于 呈 球 状 。 基 于 图 的 簇 如 果 数 据 用 图 表示 ， 
其 中 结 点 是 对 象 ， 而 边 代 表 对 和 象 之 间 的 联系 ， 则 簇 可 以 定义 为 连通 分 支 〈Connected 
Component) ， 即 互相 连通 但 不 与 组 外 对 象 连通 的 对 象 组 。 














基于 图 的 簇 的 一 个 重要 例子 是 基于 邻近 的 艇 (Contiguity-Based Cluster) ， 其 中 
两 个 对 象 是 相连 的 , 仅 当 它 们 的 距离 在 指定 的 范围 之 内 。 也 就 是 说 在 基于 邻近 的 簇 中 ， 
每 个 对 象 到 该 簇 某 个 对 象 的 距离 比 到 不 同 簇 中 任意 点 的 距离 更 近 。 当 簇 不 规则 或 缠绕 
时 ， 簇 的 这 种 定义 是 有 用 的 。 但 是 ， 当 数据 有 噪声 时 就 可 能 出 现 问 题 ， 一 个 小 的 点 桥 
就 可 能 合并 两 个 不 同 的 徐 。 也 存在 其 他 类 型 的 基于 图 的 徐 。 一 种 方法 是 定义 簇 为 团 
(Clique) ， 即 图 中 相互 之 间 完 全 连接 的 结 点 的 集合 。 具 体 来 说 ， 如 果 我 们 按照 对 象 
之 间 的 距离 添加 连接 ， 当 对 象 集 形 成 团 时 就 形成 一 个 戏 。 与 基于 原型 的 复 一 样 ， 这 样 
的 簇 也 趋向 于 呈 球 形 。 

基于 密度 的 艇 是 对 象 的 稠密 区 域 ， 被 低 密度 的 区 域 环绕 。 共 同性 质 的 (概念 禾 ) 
可 以 把 簇 定义 为 有 某 种 共同 性 质 的 对 象 的 集合 。 这 个 定义 包括 前 面 的 所 有 簇 定义 。 例 
如 ， 基 于 中 心 簇 中 的 对 象 都 具有 共同 的 性 质 ， 它们 都 离 相同 的 质心 或 中 心 点 最 近 。 然 
而 ， 共 享 性 质 的 方法 还 包含 新 的 簇 类 型 。 在 这 两 种 情况 下 ， 聚 类 算法 都 需要 非常 具体 
的 簇 概念 来 成 功 地 检测 出 这 些 欠 。 发 现 这 样 的 簇 的 过 程 称 作 概念 聚 类 。 然 而 ， 过 于 复 
杂 的 艇 概 念 将 涉及 模式 识别 领域 。 因 此 ， 本 书 只 考虑 较 简单 的 马 类 型 。 

本 章 我 们 使 用 如 下 三 种 简单 但 重要 的 技术 来 介绍 聚 类 分 析 涉 及 的 一 些 概念 。 

A) 基于 划分 的 聚 类 : K-means (天 均值 ) 算法 。 天 均值 是 基于 原型 的 、 划 分 的 
聚 类 技术 。 它 试图 发 现 用 户 指 定 个 数 (K) HE LRE) o 

(2) 基于 凝聚 的 层次 聚 类 BIRCH 算法 。 这 种 聚 类 方法 涉及 一 组 密切 相关 的 聚 
类 技术 ， 它 们 通过 如 下 步骤 产生 层次 聚 类 : 开始 ， 每 个 点 作为 一 个 单 点 徐 ， 然后 ， 重 
复 地 合并 两 个 最 靠近 的 徐 ， 直 到 产生 单个 的 、 包 含 所 有 点 的 艇 。 其 中 某 些 技术 可 以 用 
基于 图 的 聚 类 解释 ， 而 另 一 些 则 可 以 用 基于 原型 的 方法 解释 。 

(3) 基于 密度 的 聚 类 DBSCAN。 这 是 一 种 产生 划分 聚 类 的 基于 密度 的 聚 类 算法 ， 
簇 的 个 数 由 算法 自动 确定 。 低 密度 区 域 中 的 点 被 视 为 噪声 而 忽略 ， 因 此 DBSCAN 不 
POE TEER 

(4) 基于 网 格 的 聚 类 CLIQUE。 


假设 你 已 经 评估 了 给 定数 据 集 的 聚 类 趋势 ， 可 能 已 经 试 着 确定 数据 集 的 簇 数 。 现 
在 ， 你 可 以 使 用 一 种 或 多 种 聚 类 方法 来 得 到 数据 集 的 聚 类 。“ 一 种 方法 产生 的 聚 类 好 
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吗 ? 如 何 比较 不 同方 法 产生 的 聚 类 ? ” 

对 于 测定 聚 类 的 质量 ， 我 们 有 几 种 方法 可 供 选 择 。 一 般 而 言 ， 根 据 是 否 有 基准 可 
用 ， 这 些 方法 可 以 分 成 两 类 。 这 里 ， 基 准 是 一 种 理想 的 聚 类 ， 通 常 由 专家 构建 。 

如 果 有 可 用 的 基准 ， 则 外 在 方法 (Extrinsic Method) 可 以 使 用 它 。 外 在 方法 比较 
聚 类 结果 和 基准 。 如 果 没 有 基准 可 用 ， 则 我 们 可 以 使 用 内 在 方法 Intrinsic Method) , 
通过 考虑 艇 的 分 离 情 况 评估 聚 类 的 好 坏 。 基 准 可 以 看 作 一 种 “ 艇 标号 ”形式 的 监督 。 
因此 ， 外 在 方法 又 称 监督 方法 ， 而 内 在 方法 是 无 监督 方法 。 

我 们 针对 每 类 考察 一 些 简单 的 方法 。 

1. 外 在 方法 

当 有 基准 可 用 时 ， 我 们 可 以 把 它 与 聚 类 进行 比较 ， 以 评估 聚 类 。 这 样 ， 外 在 方法 
的 核心 任务 是 ， 给 定 基准 Co HRK C 赋予 一 个 评分 2 CC, C) 。 一 种 外 在 方法 是 
否 有 效 很 大 程度 依赖 于 该 方法 使 用 的 度量 O。 

一 般 而 言 ， 一 种 聚 类 质量 度量 O 是 有 效 的 ， 如 果 它 满足 如 下 4 项 基本 标准 : 

(1) 簇 的 同 质 性 (cluster homogeneity) 。 这 要 求 ， 聚 类 中 的 簇 越 纯 ， 聚 类 越 好 。 
假设 基准 是 说 数据 集 D 中 的 对 象 可 能 属于 类 别 L,，…，L,。 考 虑 一 个 聚 类 Co Hp 
§E CEC, 包含 来 自 两 个 类 五 和 厂 (1 <i<j<n) 的 对 象 。 再 考虑 一 个 聚 类 C, 
除了 把 C 划 分 成 分 别 包 含 L 和 工 中 对 和 象 的 两 个 簇 之 外 , 它 等 价 于 Ci。 关于 簇 的 同 质 性 ， 
聚 类 质量 度量 O 应 该 赋予 C 比 C, 更 高 的 得 分 , ENO (CG, C,) > C CD 。 

(2) 艇 的 完全 性 〈cluster completeness)。 这 与 徐 的 同 质 性 相辅相成 。 簇 的 完全 
性 要 求 对 于 聚 类 来 说 ， 根 据 基准 ， 如 果 两 个 对 象 属于 相同 的 类 别 ， 则 它们 应 该 被 分 配 
到 相同 的 艇 。 簇 的 完全 性 要 求 聚 类 把 (根据 基准 ) 属于 相同 类 别 的 对 象 分 配 到 相同 的 
fio FERR C, CARI CO 和 C,， 根 据 基 准 ， 它 们 的 成 员 属 于 相同 的 类 别 。 假 设 
G 除 Cl 和 CC 在 CC 中 合并 到 一 个 簇 之 外 ， 它 等 价 于 聚 类 Cl。 关于 簇 的 完全 性 ， 聚 类 
质量 度量 应 该 赋予 C 更 高 的 得 分 ， 即 CO CC, C) >Q (CG, C) o 

G) EHR (rag ba) 。 在 许多 实际 情况 下 ， 常 常 有 一 种 “ 碎 布 袋 ” 类 别 ， 包 含 
一 些 不 能 与 其 他 对 象 合并 的 对 象 。 这 种 类 别 通常 称 为 “杂项 ”“ 其 他 ”等 。 碎 布袋 
准则 是 说 , 把 一 个 异种 对 象 放 入 一 个 纯 的 簇 中 应 该 比 放 入 碎 布 袋 中 受 更 大 的 “处 罚 ”。 
BRK, MRCS Ci， 使 得 根据 基准 ， 除 一 个 对 象 〈 记 作 o) 之 外 ，C 中 所 有 
的 对 象 都 属于 相同 的 类 别 。 考 虑 聚 类 C， 它 几乎 等 价 于 CI， 唯 一 例外 是 在 C, P, o 
被 分 配给 簇 AC ERC 包含 来 自 不 同类 别 的 对 象 〈 根 据 基准 ) ， 因 而 是 噪声 。 
换言之 ，C, 中 的 C'′ 是 一 个 碎 布 袋 。 于 是 ， 关 于 碎 布 袋 准 则 ， 聚 类 质量 度量 应 该 赋 
予 C 更 高 的 得 分 ， 即 2 CC, C) >Q Cs Q) 。 


第 3 章 聚 类 分 析 


(4) 小 簇 保持 性 (small cluster preservation) 。 如 果 小 的 类 别 在 聚 类 中 被 划分 成 
小 片 ， 则 这 些小 片 很 可 能 成 为 噪声 ， 从 而 小 的 类 别 就 不 可 能 被 该 聚 类 发 现 。 小 簇 保持 
准则 是 说 ， 把 小 类 别 划分 成 小 片 比 将 大 类 别 划分 成 小 片 更 有 害 。 考 虑 一 个 极端 情况 ， 
设 DD 是 n+2 个 对 象 的 数据 集 ， 根 据 基准 ，7 个 对 象 0，…，o 属于 一 个 类 别 ， 而 其 
他 两 个 对 象 omo Omm 属于 另 一 个 类 别 。 假 设 聚 类 C 有 3 ME: O fop e o} 
CH {onm} C= {mjo WRR C WA 3 ME CHL, oy Omp C=} CHO 
0m2}。 换 言 之 ，C 划分 了 小 类 别 ， 而 Ci 划分 了 大 类 别 。 保 持 小 簇 的 聚 类 质量 度量 Q 
应 该 赋予 C 更 高 的 得 分 ， 即 O CC, C) >Q (CG, Q) o 

许多 聚 类 质量 度量 都 满足 这 4 个 标准 。 这 里 ， 我 们 介绍 一 种 BCubed 精度 和 召回 
率 ， 它 满足 这 4 个 标准 。 

BCubed 根据 基准 ， 对 给 定数 据 集 上 聚 类 中 的 每 个 对 象 估计 精度 和 召回 率 。 一 个 
对 象 的 精度 指示 同一 徐 中 有 多 少 个 其 他 对 象 与 该 对 象 同属 一 个 类 别 。 一 个 对 象 的 召回 
率 反映 有 多 少 同一 类 别 的 对 象 被 分 配 在 相同 的 簇 中 。 

设 D={01，…，o,} 是 对 象 的 集合 ，C 是 DD 的 一 个 聚 类 。 设 工 (o) (1 i<n) 
是 基准 确定 的 o 的 类 别 ，C Co) 是 C 中 o; 的 cluster ID。 于 是 ， 对 于 两 个 对 象 0; 和 
o; ZERK C 中 的 关系 的 正确 性 由 下 式 给 出 


1 L(o,)=L(o,) = C(o,) = C(o,) 


Correctness(o,, 0;) -| (3-1) 











0 其 他 
BCubed 精度 定义 为 
> Correctness(o,, 0;) 
Precision BCubed = 1 $ eptes€eoreceey (3-2) 
nit |{o,li#J, co)=cj 
BCubed 召回 率 定义 为 


> Correctness(o,, 0;) 


1 忆 o:i4),L@)=L(0,) 
Recall BCubed = 一 》 2+0, (3-3) 
ecall BCube > Ko, lies, L(o,)=L(0,)}| 








2. 内 在 方法 

当 没 有 数据 集 的 基准 可 用 时 ， 我 们 必须 使 用 内 在 方法 来 评估 聚 类 的 质量 。 一 般 而 
言 ， 内 在 方法 通过 考察 驴 间 的 分 离 情况 和 簇 内 的 紧凑 情况 来 评估 育 类 。 许 多 内 在 方法 
都 利用 数据 集 的 对 象 之 间 的 相似 性 度量 。 

轮廓 系数 〈silhouette coefficient) 就 是 这 种 度量 。 对 于 n 个 对 象 的 数据 集 D， 假 
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BD BUA BK MIE C,，…，Cx。 对 于 每 个 对 象 。 ED, RIA o t o PRRI 
的 其 他 对 象 之 间 的 平均 距离 a(o0)。 类 似 的 ，b(o) 是 o 到 不 属于 o 的 所 有 簇 的 最 小 平均 
距离 。 假 设 o EC (1 i< 下) ，|C| RAC 中 的 对 象 数量 ， 则 


> dist(o,0') 
ao T = (3-4) 
> dist(o, o) 
b(0) =, min Je (3-5) 
WH o 的 轮廓 系数 定义 为 
s(o)= Ko) -a(0) _ (3-6) 


max {a(o), p(o)} 

轮廓 系数 的 值 在 -1 和 1 E. a(o) 的 值 反映 o ATRIA REE. ZER, 
RRRA. b(0) 的 值 捕获 o 与 其 他 簇 的 分 离 程度 。b(o) ERK, o 与 其 他 簇 越 分 离 。 
因此 , 4 o 的 轮廓 系数 值 接近 1 时 ， 包 含 o RE, IFA o BHR, aE 
一 种 可 取 的 情况 。 然 而 ， 当 轮廓 系数 的 值 为 负 时 [ BY Wo)<a(o)] 这 意味 在 期 望 情况 下 ， 
o 距离 其 他 簇 的 对 象 比 距离 与 自己 同 在 簇 的 对 象 更 近 。 在 许多 情况 下 ,这 是 很 糟糕 的 ， 
应 该 避免 。 

为 了 度量 聚 类 中 的 簇 的 拟 合 性 ， 我 们 可 以 计算 簇 中 所 有 对 象 的 轮廓 系数 的 平均 
值 。 为 了 度量 聚 类 的 质量 ， 我 们 可 以 使 用 数据 集中 所 有 对 象 的 轮廓 系数 的 平均 值 。 轮 
廓 系数 和 其 他 内 在 度量 也 可 以 用 在 该 方法 中 ， 通 过 启发 式 地 导出 数据 集 的 簇 数 取代 簇 
内 方差 之 和 。 

v 函数 是 另外 一 种 评估 聚 类 质量 的 度量 方法 。 

定义 误差 平方 和 函数 

SSE = £ > dist(c, x}? (3-7) 


isl xeC, 


它 表示 第 i METER TICK x 到 簇 中 心 c 的 距离 的 平方 和 。 
再 定义 平均 误差 平方 和 函数 
SSE = 1$ > dist(c, x}? (3-8) 


i=l xeC, 


再 定义 簇 间 平均 距离 





万 = D > dist(c,¢,) (3-9) 
显然 SSE Be) (SACRA BRUT) . DMA GRAM BRA) MRR 
FRIST, GLAS FB OPE TR SE AR 


K 
= 和 dist(c xP 


i=l xeC, 


y= = (3-10) 


RE Kap Lee 6) 





3.3.1 基于 划分 的 聚 类 算法 概述 


聚 类 分 析 最 简单 、 最 基本 的 算法 是 划分 ， 它 把 对 象 组 织 成 多 个 互 斥 的 组 或 能 。 为 

了 使 问题 说 明 简 洁 ， 我 们 假定 能 个 数 作 为 已 知 ， 这 个 参数 是 划分 方法 的 起 点 。 

形式 地 ， 给 定 n 个 数据 对 象 的 数据 集 D， 以 及 要 生成 的 簇 数 天， 划分 算法 把 数据 
对 象 组 织 成 天 (天 <n) 个 分 区 ， 其 中 每 个 分 区 代表 一 个 徐 。 这 些 簇 的 形成 则 在 优化 
一 个 客观 划分 准则 ， 如 基于 距离 的 相 异 性 函数 ， 使 得 根据 数据 集 的 属性 ， 在 同一 个 艇 
中 的 对 象 是 “相似 的 ”， 而 不 同 簇 中 的 对 象 是 “ 相 异 的 ”。 

划分 方法 (partitioning method) 通常 给 定 一 个 有 n 个 对 象 的 集合 ， 划 分 方法 构建 
数据 的 天 个 分 区 ， 其 中 每 个 分 区 表示 一 个 马 ， 并 且 CK <n) 。 也 就 是 说 ， 它 把 数据 
划分 为 天 个 组 ， 使 得 每 个 组 至 少 包 含 一 个 对 象 。 换 言 之 ， 划 分 方法 在 数据 集 上 进行 
一 层 划 分 。 典 型 地 ， 基 本 划分 方法 采取 互 斥 的 簇 划 分 ， 即 每 个 对 象 必须 恰好 属于 一 个 
组 。 这 一 要 求 ， 在 模糊 划分 技术 中 可 以 放宽 。 

大 部 分 划分 方法 是 基于 距离 的 。 给 定 要 构建 的 分 区 数 玫 ， 划 分 方法 首先 创建 一 个 
初始 划分 。 然 后 ， 它 采用 一 种 迭代 的 重 定位 技术 ， 通 过 把 对 象 从 一 个 组 移动 到 另 一 个 
组 来 改进 划分 。 

一 般 来 说 ， 一 个 好 的 划分 准则 是 : 同一 个 簇 中 的 对 象 尽 可 能 相互 “接近 ”或 相关 ， 
而 不 同 簇 中 的 对 象 尽 可 能 “ 远 高 ”或 不 同 。 传 统 的 划分 方法 可 以 扩展 到 子 空间 聚 类 ， 
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而 不 是 搜索 整个 数据 空间 。 当 存在 很 多 属性 并 且 数 据 稀疏 时 ， 这 是 有 用 的 。 

为 了 达到 全 局 最 优 , 基于 划分 的 聚 类 可 能 需要 穷 举 所 有 可 能 的 划分 , 计算 量 极 大 。 
实际 上 ， 大 多 数 应 用 都 采用 了 流行 的 启发 式 方法 ， 如 均值 和 中 心 点 算法 ， 渐 近 地 提 高 
聚 类 质量 ， 逼 近 局 部 最 优 解 。 这 些 启发 式 聚 类 方法 很 适合 发 现 中 小 规模 的 数据 库 中 的 
BRR. 

为 了 发 现 具 有 复杂 形状 的 徐 和 对 超大 型 数据 集 进行 聚 类 ， 需 要 进一步 扩展 基于 划 
分 的 方法 。 

基于 划分 的 聚 类 技术 很 多 ， 但 最 突出 的 是 均值 和 K 中心 点 。K 均值 用 质心 定 
义 原型 ， 其 中 质心 是 一 组 点 的 均值 。 通 常 ，K 均值 聚 类 用 于 连续 空间 中 的 对 象 。K 中 
心 点 使 用 中 心 点 定义 原型 ， 其 中 中 心 点 是 一 组 点 中 最 有 代表 性 的 点 。K 中 心 点 聚 类 可 
以 用 于 广泛 的 数据 ， 因 为 它 只 需要 对 象 之 间 的 邻近 性 度量 。 尽 管 质心 几乎 从 来 不 对 应 
于 实际 的 数据 点 ， 但 根据 定义 ， 中 心 点 必须 是 一 个 实际 数据 点 。 本 节 ， 我 们 只 关注 K 
均值 ， 一 种 最 老 的 、 最 广泛 使 用 的 聚 类 算法 。 

K-means RHAH J. B. Mac Queen 于 1967 年 提出 ， 是 最 为 经 典 的 也 是 使 用 最 
为 广泛 的 一 种 基于 划分 的 聚 类 算法 ， 它 属于 基于 距离 的 聚 类 算法 。 所 谓 的 基于 距离 的 
聚 类 算法 是 指 采用 距离 作为 相似 性 量度 的 评价 指标 , 也 就 是 说 , 当 两 个 对 象 离 得 近 时 ， 
两 者 之 间 的 距离 比较 小 ， 那 么 它们 之 间 的 相似 性 就 比较 大 。 这 类 算法 通常 是 由 距离 比 
较 相 近 的 对 象 组 成 饺 ， 把 得 到 的 紧凑 而 且 独 立 的 忽 作 为 最 终 目标 ， 因 此 将 这 类 算法 称 
为 基于 距离 的 聚 类 算法 。K-means 聚 类 算法 就 是 其 中 比较 经 典 的 一 种 算法 。K-means 
聚 类 是 数据 挖掘 的 重要 分 支 ， 同 时 也 是 实际 应 用 中 最 常用 的 聚 类 算法 之 一 。 


3.3.2 ”K-means 聚 类 算法 原理 


K-means 聚 类 算法 的 最 终 目 标 就 是 根据 输入 参数 天 《这 里 的 天 表示 需要 将 数据 对 
BRM DME) ， 把 数据 对 象 分 成 天 个 能 。 该 算法 的 基本 思想 是 : 首先 , 指定 需要 
划分 的 簇 的 个 数 天 值 ， 其 次 ， 随 机 地 选择 下 个 初始 数据 对 象 点 作为 初始 的 聚 类 中 心 ; 
再 次 ， 计 算 其 余 的 各 个 数据 对 象 到 这 大 个 初始 聚 类 中 心 的 距离 〈 这 里 一 般 采 用 距离 
作为 相似 性 度量 ) ， 把 数据 对 象 划 归 到 距离 它 最 近 的 那个 中 心 所 处 的 簇 类 中 ;最 后 ， 
调整 新 类 并 且 重 新 计算 出 新 类 的 中 心 ， 如 果 两 次 计算 出 来 的 聚 类 中 心 未 曾 发 生 任何 变 
化 ， 就 可 以 说 明 数 据 对 象 的 调整 已 经 结束 ， 也 就 是 说 聚 类 采用 的 准则 函数 〈 这 里 采用 
的 是 误差 平方 和 的 准则 函数 是 收敛 的 ， 表 示 算 法 结束 。 

K-means 聚 类 算法 属于 一 种 动态 聚 类 算法 ， 也 称 为 逐步 聚 类 法 ， 该 算法 的 一 个 比 


较 显 著 的 特点 就 是 迭代 过 程 ， 每 次 都 要 考察 对 每 个 样本 数据 的 分 类 正确 与 否 ， 如 果 不 
正确 ， 就 要 进行 调整 。 当 调整 完全 部 的 数据 对 象 之 后 ， 再 来 修改 中 心 ， 最 后 进入 下 一 
次 迭代 的 过 程 中 。 若 在 一 个 迭代 中 ， 所 有 的 数据 对 象 都 已 经 被 正确 地 分 类 ， 那 么 就 不 
会 有 调整 ， 聚 类 中 心 也 不 会 改变 ， 聚 类 准则 函数 也 表明 已 经 收敛 ， 那 么 该 算法 就 成 功 
结束 。 

传统 的 K-means 算法 的 基本 工作 过 程 是 : 首先 随机 选择 天 个 数据 作为 初始 中 心 ， 
计算 各 个 数据 到 所 选 出 来 的 各 个 中 心 的 距离 ， 将 数据 对 象 指派 到 最 近 的 簇 中 。 然 后 计 
算 每 个 簇 的 均值 ， 循 环 往复 执行 ， 直 到 满足 聚 类 准则 函数 收敛 为 止 ， 其 具体 的 工作 步 
又 如 下 。 








算法 3.1 K-means 算法 


输入 : 初始 数据 集 DATA 和 簇 的 数目 Ko 

输出 : 天 个 筷 ， 满 足 平方 误差 准则 函数 收敛 。 

L 任意 选择 天 个 数据 对 象 作 为 初始 聚 类 中 心 。 

IIRepeat. 

M. 根据 篮 中 对 象 的 平均 值 ， 将 每 个 对 象 赋 给 最 类 似 的 筷 。 

IV. 更 新 每 个 筷 的 聚 类 中 心 。 

V. 计算 聚 类 准则 函数 CEH 3.2 节 中 提 到 的 任意 一 种 聚 类 效果 评估 函数 。 
VILUntil 准则 函数 J. 值 不 再 进行 变化 。 


K-means 算法 的 工作 框架 如 下 : 

(1) 适当 选择 天 个 初始 中 心 点 。 对 于 每 一 维特 征 ， 统 计 其 最 大 值 和 最 小 值 。 每 
次 选择 初始 中 心 点 时 ， 在 每 个 特征 的 最 大 值 和 最 小 值 中 生成 一 个 随机 值 ， 作 为 该 特征 
的 值 。 重 复 该 步骤 直到 天 个 初始 中 心 点 生成 完毕 。 

(2) 迭代 地 将 剩 下 点 划分 到 各 个 聚 类 。 对 于 剩 下 的 每 个 点 ， 计 算 其 到 天 个 中 心 
点 的 距离 ， 从 中 选择 距离 最 近 的 中 心 点 ， 将 其 划分 到 该 中 心 点 所 属 的 聚 类 中 。 

两 点 间 的 距离 计算 ， 对 欧式 空间 中 的 点 使 用 欧式 距离 、 对 文档 用 余弦 相似 度 、 皮 
尔 逊 相关 度 、Jaccard 相似 系数 等 。 

皮尔 逊 相关 度 可 定义 为 两 个 向 量 之 间 的 协 方差 和 标准 差 的 商 。 

G) 计算 每 个 聚 类 新 的 中 心 点 。 计 算 方 法 是 取 聚 类 中 所 有 点 各 自 维度 的 算术 平 
均值 。 

(4) 判断 本 次 迭代 的 聚 类 结果 是 否 与 上 次 一 致 。 
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比较 天 个 聚 类 中 的 中 心 点 是 否 发 生 了 变化 ， 依 次 比较 每 个 聚 类 即 可 。 如 果 两 次 
聚 类 结果 没有 发 生变 化 ， 则 停止 欠 代 ， 输 出 聚 类 结果 ; 如 果 发 生 了 变化 ， 则 重复 (2) 
和 (3) P, EER. 

从 该 算法 的 框架 能 够 得 出 ，K-means 算法 的 特点 是 : 调整 一 个 数据 样本 后 就 修 
改 一 次 聚 类 中 心 以 及 聚 类 准则 函数 7. 的 值 ， 当 n 个 数据 样本 完全 被 调整 完 后 表示 
一 次 迭代 完成 ， 这 样 就 会 得 到 新 的 上 和 聚 类 中 心 的 值 。 若 在 一 次 迭代 完成 之 后 ， 
J 的 值 没有 发 生变 化 ， 则 表明 该 算法 已 经 收敛 ， 在 迭代 过 程 中 J. 值 逐渐 缩小 ， 直 到 
达到 最 小 值 为 止 。 该 算法 的 本 质 是 把 每 一 个 样本 点 划分 到 离 它 最 近 的 聚 类 中 心 所 在 
的 类 。 

K-means 聚 类 算法 的 本 质 是 一 个 最 优化 求解 的 问题 ， 目 标 函数 虽然 有 很 多 局 部 最 
小 值 点 ， 但 只 有 一 个 全 局 最 小 值 点 。 之 所 以 只 有 一 个 全 局 最 小 值 点 ， 是 由 于 目标 函数 
总 是 按照 误差 平方 准则 函数 变 小 的 轨迹 来 进行 查找 的 。 

K-means 算法 对 聚 类 中 心 采取 的 是 迭代 更 新 的 方法 ， 根 据 天 个 聚 类 中 心 ， 将 周 
围 的 点 划分 成 K 个 簇 ， 在 每 一 次 的 迭代 中 将 重新 计算 的 每 个 簇 的 质心 ， 即 艇 中 所 有 
点 的 均值 ， 作 为 下 一 次 迭代 的 参照 点 。 也 就 是 说 ， 每 一 次 的 迭代 都 会 使 选取 的 参照 点 
越 来 越 接近 簇 的 几何 中 心 ， 也 就 是 簇 心 ， 所 以 如 果 目 标 函数 越 来 越 小 ， 那 么 聚 类 的 效 
果 就 会 越 来 越 好 。 


3.3.3”K-means 算 法 的 优势 与 劣势 


1.K-means 算法 的 优势 

(1) K-means 聚 类 算法 是 解决 聚 类 问题 的 一 种 经 典 算法 ， 算 法 简单 、 快 速 。 

(2) 对 处 理 大 数据 集 ， 该 算法 是 相对 可 伸缩 和 高 效率 的 ， 因 为 它 的 复杂 度 大 约 
Æ (O (nKt) ) 其 中 n 是 所 有 对 象 的 数目 ; KERHA: t EERI 
K<n) ， 这 个 算法 经 常 以 局 部 最 优 结束 。 

G) 算法 尝试 找 出 使 平方 误差 函数 值 最 小 的 天 个 划分 。 当 簇 是 密集 的 ， 球 状 或 
团 状 的 ， 而 簇 与 簇 之 间 的 区 别 明显 时 ， 它 的 聚 类 效果 较 好 。 

2. K-means 算法 的 劣势 

(1) K-means 聚 类 算法 只 有 在 艇 的 平均 值 被 定义 的 情况 下 才能 使 用 ， 不 适用 于 
某 些 应 用 ， 如 涉及 有 分 类 属性 的 数据 不 适用 。 

(2) 要 求 用户 必 须 事先 给 出 要 生成 的 簇 的 数目 K 
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(3) 对 初 值 敏感 。 不 同 的 初始 值 ， 可 能 会 导致 不 同 的 聚 类 结果 。 

(4) 不 适合 于 发 现 非 凸 面 形状 的 徐 ， 或 者 大 小 差别 很 大 的 簇 。 

G) 对 于 “噪声 ”和 孤立 点 数据 敏感 ， 少 量 的 该 类 数据 能 够 对 平均 值 产 生 极 大 
的 影响 。 


3.3.4 K-means 算 法 优化 


1. RPE 

前 面 介绍 的 基本 天 均值 算法 存在 的 问题 之 一 是 : 如 果 所 有 的 点 在 指派 步骤 都 未 
分 配 到 某 个 艇 就 会 得 到 空 秘 。 如 果 这 种 情况 发 生 ， 则 需要 某 种 策略 来 选择 一 个 替补 质 
D, 否则 的 话 , 平方 误差 将 会 偏 大 。 一 种 方法 是 选择 一 个 距离 当前 任何 质心 最 远 的 点 ， 
这 将 消除 当前 对 总 平方 误差 影响 坡 大 的 点 。 另 一 种 方法 是 从 具有 最 大 SSE 的 簇 中 选 
择 一 个 替补 质心 。 这 将 分 裂 艇 并 降低 聚 类 的 总 SSE。 如 果 有 多 个 空 徐 ， 则 该 过 程 重复 
多 次 。 

2. 离 群 点 

使 用 平方 误差 标准 时 ， 离 群 点 可 能 过 度 影响 所 发 现 的 驴 。 具 体 来 说 ， 当 存在 离 
群 点 时 ， 结 果 入 的 质心 (原型 ) 可 能 不 如 没有 离 群 点 时 那样 有 代表 性 ， 并 且 SSE 也 
比较 高 。 正 因为 如 此 ， 提 前 发 现 离 群 点 并 删除 它们 是 有 用 的 。 然 而 ， 应 当 意识 到 有 
一 些 聚 类 应 用 ， 不 能 删除 离 群 点 。 当 聚 类 用 来 压缩 数据 时 ， 必 须 对 每 个 点 聚 类 。 在 
某 些 情 况 下 《〈 如 财经 分 析 ) ， 明 显 的 离 群 点 〈 如 不 寻常 的 有 利 可 图 的 顾客 ) 可 能 是 
最 令 人 感 兴趣 的 点 。 

一 个 明显 的 问题 是 如 何 识别 离 群 点 。 如 果 我 们 使 用 的 方法 在 聚 类 前 就 删除 离 群 
点 ， 则 我 们 就 避免 了 对 不 能 很 好 聚 类 的 点 进行 聚 类 。 当 然 也 可 以 在 后 处 理 时 识别 离 群 
点 。 例 如 ， 我 们 可 以 记录 每 个 点 对 SSE 的 影响 ， 删 除 那些 具有 异乎 寻常 影响 的 点 〈 尤 
其 是 多 次 运行 算法 时 ) 。 此 外 ， 我 们 还 可 能 需要 删除 那些 很 小 的 位， 因为 它们 常常 代 
KARA. 

3. 用 后 处 理 降 低 SSE 

一 种 明显 降低 SSE 的 方法 是 找 出 更 多 徐 ， 即 使 用 较 大 的 天 。 然 而 ,在 许多 情况 下 ， 
我 们 希望 降低 SSE， 但 并 不 想 增加 簇 的 个 数 。 这 是 可 能 的 ， 因 为 下 均值 常常 收敛 于 局 
部 极 小 。 可 以 使 用 多 种 技术 来 “修补 ”结果 簇 ， 以 便 产 生 具 有 较 小 SSE 的 聚 类 。 策 
咯 是 关注 每 一 个 簇 ， 因 为 总 SSE 只 不 过 是 每 个 簇 的 SSE 之 和 。 (为 了 避免 混淆 ， 我 
们 将 分 别 使 用 术语 总 SSE MIR SSE。) 通过 在 位 上 进行 诸如 分 裂 和 合并 等 操作 ， 我 们 
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可 以 改变 总 SSE。 一 种 常用 的 方法 是 交替 地 使 用 簇 分 裂 和 簇 合并 。 在 分 裂 阶段 将 簇 分 
开 ， 而 在 合并 阶段 将 簇 合并 。 用 这 种 方法 ， 常 常 可 以 避 开 局 部 极 小 ， 并 且 仍 然 能 够 得 
到 具有 期 望 个 数 秘 的 聚 类 。 下 面 是 一 些 用 于 分 裂 和 合并 阶段 的 技术 。 

(1) 通过 增加 簇 个 数 来 降低 总 SSE 的 两 种 策略 如 下 。 

ODPRTI: 通常 选择 具有 最 大 SSE 的 徐 ， 但 我 们 也 可 以 分 裂 在 特定 属性 具 
有 最 大 标准 差 的 簇 。 

@ 引进 一 个 新 的 质心 通常 选择 高 所 有 簇 质 心 最 远 的 点 。 如 果 我 们 记录 每 个 点 对 
SSE 的 贡献 ， 则 可 以 容易 地 确定 最 远 的 点 。 另 一 种 方法 是 从 所 有 的 点 或 者 具有 最 高 
SSE 的 点 中 随机 地 选择 。 

(2) 减少 簇 个 数 ， 而 且 试图 最 小 化 总 SSE 的 增长 的 两 种 策略 如 下 。 

© 拆散 一 个 簇 删除 簇 的 对 应 质心 ， 并 将 簇 中 的 点 重新 指派 到 其 他 秘 。 理 想 情 
况 下 ， 被 拆散 的 簇 应 当 是 使 总 SSE 增加 最 少 的 簇 。 

@ RHAD: 通常 选择 质心 最 接近 的 两 个 簇 ， 尽管 另 一 种 方法 (合并 两 个 导 
致 总 SSE 增加 最 少 的 簇 ) 或 许 更 好 。 这 两 种 合并 策略 与 层次 聚 类 使 用 的 方法 相同 ， 
分 别称 作 质 心 方法 和 Ward 方法 。 

4. 增 量 地 更 新 质心 

可 以 在 点 到 簇 的 每 次 指派 之 后 ， 增 量 地 更 新 质心 ， 而 不 是 在 所 有 的 点 都 指派 到 簇 
中 之 后 才 更 新 簇 质心 。 注 意 ， 每 步 需要 零 次 或 两 次 簇 质 心 更 新 ， 因 为 一 个 点 或 者 转移 
到 一 个 新 的 簇 (两 次 更 新 ) ,或 者 留 在 它 的 当前 簇 〈 零 次 更 新 ) 。 使 用 增设 更 新 策略 
确保 不 会 产生 空 徐 ， 因 为 所 有 的 艇 都 从 单个 点 开始 :并且 如 果 一 个 簇 只 有 单个 点 ， 则 
该 点 总 是 被 重新 指派 到 相同 的 簇 。 

此 外 ， 如 果 使 用 增 量 更 新 ， 则 可 以 调整 点 的 相对 权 值 。 例 如 ， 点 的 权 值 通常 随 
聚 类 的 进行 而 减 小 。 尽 管 这 可 能 产生 更 好 的 准确 率 和 更 快 的 收敛 性 ， 但 在 千变万化 
的 情况 下 ， 选 择 好 的 相对 权 值 可 能 是 困难 的 。 这 些 更 新 问题 类 似 于 人 工 神 经 网 络 的 
权 值 更 新 。 

增 量 更 新 的 另 一 个 优点 是 使 用 不 同 于 “最 小 化 SSE” 的 目标 。 假 设 给 定 一 个 度量 
筷 集 的 目标 函数 。 当 处 理 某 个 点 时 , 我 们 可 以 对 每 个 可 能 的 簇 指派 计算 目标 函数 的 值 ， 
然后 选择 优化 目标 的 簇 指派 。 

缺点 方面 ， 增 量 地 更 新 质心 可 能 导致 次 序 依赖 性 。 换 言 之 ， 所 产生 的 能 可 能 依 
赖 于 点 的 处 理 次 序 。 尽 管 随机 地 选择 点 的 处 理 次 序 可 以 解决 该 问题 ， 但 是 ， 基 本 
天 均 值 方法 在 把 所 有 点 指派 到 簇 中 之 后 才 更 新 质心 并 没有 次 序 依赖 性 。 此 外 ， 增 
量 更 新 的 开销 也 稍微 大 一 些 。 然 而 ,均值 收敛 相当 快 ， 因 此 切换 簇 的 点 数 很 快 
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就 会 变 小 。 


3.3.5 SPSS 软 件 中 的 K-means 算 法 应 用 案例 


根据 项 目 需要 选取 字段 ， 假 如 需要 制定 适合 用 户 的 套餐 ， 就 可 以 选择 “当月 本 
DOU” 和 “当月 MOU” 字 段 , 从 而 对 套餐 进行 画像 , 达到 套餐 精准 营销 的 目的 .K-means 
算法 的 操作 步骤 如 下 : 

1. 去 奇异 值 

K-means 是 基于 距离 的 聚 类 。 为 了 避免 不 同属 性 因 度 量 值 不 同 而 对 聚 类 产生 不 同 
的 影响 , 我 们 需要 先 对 每 个 属性 进行 归 一 化 , 以 保证 每 个 属性 对 聚 类 结果 的 影响 相同 ， 
而 不 是 某 一 个 属性 占据 压倒 性 优势 。 为 避免 某 些 异 常 的 极 大 点 对 结果 的 影响 ， 首 先 应 
该 去 除 奇异 值 。 

A) 在 菜单 上 依次 选择 “图 形 一 图 表 构 建 程序 ”。 如 图 3-2 所 示 。 
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图 3-2 ”去 除 奇异 值 操作 1 
(2) 单 击 之 后 ， 就 会 出 现 如 图 3-3 所 示 的 界面 ， 依 次 选择 “ 库 一 双 轴 ”。 
(3) 继续 单 击 “ 基 本 元 素 一 二 维 坐 标 ” 然 后 将 变量 中 需要 去 除 奇异 值 的 属性 拖 
进 左 边 的 坐标 轴 的 虚线 框 内 ， 如 图 3-4 所 示 。 
(4) 完成 上 述 操作 步骤 后 单 击 “确定 就 可 以 在 查看 器 中 得 到 如 图 3-5 所 示 的 “ 当 
用 DOU” 和 “当月 MOU” 关 系 图 。 


123 | 


1124 大 数据 、 数 据 挖掘 与 智慧 运营 

















34 去除 奇异 值 操作 3 


(5) 可 以 从 图 中 看 出 ， 有 两 个 明显 的 离 群 点 。 接 下 来 要 做 的 就 是 找到 这 两 个 点 
在 数据 表 中 对 应 的 位 置 ， 并 消除 这 两 个 样本 数据 。 单 击 “ 图 片 ”进入 “图 标 编辑 器 ” 
界面 ， 选 中 该 点 ，“ 右 击 一 转 至 个 案 ”， 如 图 3-6 所 示 。 
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图 3-5 ”去除 奇异 值 操作 4 





(6) 数据 编辑 器 会 将 转 至 个 案 的 样本 数据 标识 出 来 ， 如 图 3-7 所 示 。 选 中 后 “ 右 
击 一 清除 ”。 
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图 3-7 去 除 奇异 值 操作 6 
在 图 3-6 中 可 以 看 出 至 少 有 两 个 奇异 值 ， 但 上 述 操作 只 去 除了 其 中 一 个 。 若 要 去 
除 另 一 个 则 必须 重新 重复 上 述 画 图 步骤 。 因 为 在 清除 了 一 个 样本 数据 之 后 ， 数 据 集中 
的 序号 就 产生 了 变化 ， 这 时 图 3-6 中 另 一 个 奇异 值 的 点 就 无 法 找到 它 所 对 应 的 样本 数 
据 的 位 置 。 重 复 画 图 过 程 得 到 如 图 3-8 所 示 的 结果 ， 可 以 看 出 刚刚 的 奇异 值 已 经 成 功 
去 除 。 多 次 重复 上 述 步骤 可 以 去 除 所 有 的 奇异 值 。 








3-8 去除 奇异 值 操作 7 
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2. 数据 归 一 化 
首先 要 找 出 最 大 值 ， 选 中 一 个 字段 ， 以 “当月 MOU ”为 例 : 
a) “ 右 击 一 降序 排列 ”， 如 图 3-9 所 示 。 


BRSRELG ARSE RR TAI ARTE 





图 3-9 找 出 最 大 值 


(2) 降序 排列 之 后 ， 可 以 看 出 当月 本 MOU 的 最 大 值 为 7495。 接 下 来 生成 归 一 
化 后 的 当月 MOU， 在 菜单 上 依次 选择 “转换 一 计算 变量 ”， 如 图 3-10 所 示 。 
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3-10 数据 归 一 化 操作 1 
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(3) 出 现 如 图 3-11 所 示 界 面 。 目 标 变量 即 需要 新 生成 的 变量 ， 在 这 里 我 们 将 其 


命名 为 “ 归 一 化 当月 MOU”， 归 一 化 当月 MOU= 当月 MOU/7495( 最 大 值 )。 设 
置 完成 后 单 击 “ 确 定 ”。 














图 3-11 数据 归 一 化 操作 2 


(4) 在 数据 编辑 器 的 最 右边 就 会 多 出 一 列 ， 即 生成 的 “ 归 一 化 当月 MOU ”字段 。 
如 图 3-12 所 示 。 对 字段 当月 DOU 重复 上 述 操作 完成 归 一 化 。 
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图 3-12 数据 归 一 化 操作 3 
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3. K-means 聚 类 
(1) 在 菜单 上 依次 选择 “分 析 一 分 类 一 K-means 聚 类 ”， 如 图 3-13 所 示 。 
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图 3-13 “选择 K-means 聚 类 ” 


(2) 出 现 如 图 3-14 所 示 的 界面 ， 把 前 面 生成 的 “ 归 一 化 当月 DOU”“ 归 一 化 
当月 MOU” 字 段 拖 到 变量 栏 中 。 
EJ 


a Kmeans RSH 
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一 化 当月 MOU， 
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图 3-14 K-means 聚 类 参数 设置 1 
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G) 根据 实际 需要 设置 聚 类 数 、 最 大 迭代 次 数 和 收敛 性 标准 ， 如 图 3-15 所 示 。 
在 这 里 我 们 设置 “ 聚 类 数 ” 为 5S、“ 最 大 和 迭代 次 数 ”为 50、“ 收 全 性 标准 ”为 0。 
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3-15 K-means 聚 类 参数 设置 2 


(4) 在 SPSS 查看 器 中 ， 得 到 聚 类 中 心 和 每 个 类 中 的 样本 个 数 ， 如 图 3-16 所 示 。 
































最 终 聚 类 中 心 
RA 
=> 1 2 3 4 5 
归 一 化 当月 MOU| 0.10] 0.02} 031} 012] 0.11 
归 一 化 当月 DOU| 0.54] 0.01} 0.04} 0.02 | 0.17 
每 个 聚 类 中 的 案例 数 
RK 1 62.000 
2 | 7363.000 
3 | 686.000 
4 | 2586.000 
5 | 368.000 
有 效 11065.000 
缺失 0.000 














3-16 K-means 聚 类 结果 1 


(5) 在 -means 聚 类 参数 设置 时 可 以 单 击 保存 选项 ， 如 图 3-17 所 示 。 勾 选 “ 聚 
类 成 员 ”“ 与 聚 类 中 心 的 距离 ”， 完 成 聚 类 后 在 数据 编辑 器 的 最 右边 会 多 生成 两 列 ， 
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分 别 是 该 样本 数据 所 属 的 类 编号 和 它 到 类 中 心 的 距离 ， 如 图 3-18 所 示 。 











图 3-17 K-means 聚 类 参数 设置 3 
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图 3-18 K-means 聚 类 结果 2 
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(6) Æ K-means 聚 类 参数 设置 时 可 以 单 击 “ 选 项 ”选项 ， 如 图 3-19 所 示 。 可 以 
勾 选 “初始 聚 类 中 心 ”“ ANOVA 表 ”“ 每 个 个 案 的 聚 类 信息 ”， 这 样 在 聚 类 完成 后 
SPSS 查看 器 中 ， 不 仅 会 显示 聚 类 中 心 和 每 个 类 中 的 样本 个 数 ， 还 会 显示 出 每 个 类 中 
心 距离 另外 几 个 类 中 心 的 距离 ， 以 及 一 个 ANOVA 表 ， 如 图 3-20 所 示 。 
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图 3-19 K-means 聚 类 参数 设置 4 
最 终 聚 类 中 心间 的 距离 
聚 类 1 2 3 4 5 
1 0.542 0.537 0.520 0.371 
2 0.542 0.292 0.107 0.187 
3 0.537 0.292 0.185 0.237 
4 0.520 0.107 0.185 0.150 
> 0.371 0.187 0.237 0.150 
ANOVA 
RR RE à 
F Sig. 
均 方 df 均 方 df 
归 一 化 当月 MOU | 16.608 4 0.001 11060 | 11896.072 | 0.000 
归 一 化 当月 DOU 6.746 4 0.001 11060 9318.482 | 0.000 





























检验 应 仅 用 于 描述 性 目的 ， 因 为 选中 的 聚 类 将 被 用 来 最 大 化 不 同 聚 类 中 的 案例 


间 的 差别 。 观 测 到 的 显著 性 水 平 并 未 据 此 进行 更 正 ， 因 此 无 法 将 其 解释 为 是 对 
聚 类 均值 相等 这 一 假设 的 检验 。 


图 3-20 K-means 聚 类 结果 3 


根据 数据 表格 中 生成 的 当前 样本 到 聚 类 中 心 点 的 距离 以 及 输出 窗口 各 聚 类 中 心 
间 的 距离 ， 以 及 聚 类 质量 评价 标准 v 值 的 公式 (3-10) 

可 得 此 聚 类 的 值 为 41.10759。 由 于 聚 类 个 数 的 不 同和 参数 设置 不 同 ， 其 v 值 必 
ADR, v 值 作为 衡量 聚 类 质量 好 坏 的 标准 ， 其 值 越 小 ， 聚 类 质量 越 好 。 否 则 ， 聚 类 
质量 越 差 。 

在 前 面 的 案例 中 ， 我 们 选择 聚 类 数 为 5S， 计 算出 其 值 为 41.10759， 现 在 取 天 值 
即 聚 类 数 为 9， 所 有 的 步骤 和 前 例 一 致 ， 不 同 的 是 ， 在 选择 聚 类 数 时 ， 选 取 的 值 为 9， 
如 图 3-21 所 示 。 
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图 3-21 不 同 聚 类 数 设 置 

所 有 的 步骤 和 参数 设置 和 聚 类 数 为 5 的 步骤 和 参数 设置 一 致 ， 运 行 聚 类 算法 ， 在 
输出 窗口 得 到 聚 类 结果 如 图 3-22 所 示 。 

根据 数据 表格 中 生成 的 当前 样本 到 聚 类 中 心 点 的 距离 以 及 输出 窗口 各 聚 类 中 心 
间 的 距离 ， 以 及 聚 类 质量 评价 标准 v 值 的 公式 ， 可 得 到 聚 类 数 为 9 的 时 候 ， 其 v 值 为 
23.69967。 由 于 v 值 越 小 ， 其 聚 类 效果 越 好 ， 可 知 当 聚 类 数 为 9 时 ， 其 聚 类 效果 相 比 
聚 类 数 为 5 的 聚 类 效果 更 好 。 这 说 明 对 于 这 个 数据 集 来 说 ， 相 比 于 5 RR, APY 
分 布 更 加 符合 9 个 聚 簇 的 分 布 。 
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最 终 聚 类 中 心间 的 距离 
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RK RE 
均 方 df 均 方 df 


当月 MOU 归 一 化 9.506 8 0.001 | 11058 | 14394.832 | 0.000 
当月 DOU 归 一 化 2.981 8 0.000 | 11058 6871.864 | 0.000 


F 检 验 应 仅 用 于 描述 性 目的 ， 因 为 选中 的 聚 类 将 被 用 来 最 大 化 不 同 聚 类 中 的 案例 


间 的 差别 。 观 测 到 的 显著 性 水 平 并 未 据 此 进行 更 正 ， 因 此 无 法 将 其 解释 为 是 对 
聚 类 均值 相等 这 一 假设 的 检验 。 


F Sig. 



































最 终 聚 类 中 心 
RK 
1 2 3 4 5 6 | 7] 8 9 
当月 MOU 归 一 化 | 0.92 | 0.09 | 0.47 | 0.15 | 0.12 | 0.01 | 0.27 | 0.07 | 0.07 
当月 DOU 归 一 化 | 1.00 | 0.65 | 0.04 | 0.02 | 0.29 | 0.00 | 0.04 | 0.10 | 0.01 


3-22 K-means 聚 类 结果 3 















































3.4 基于 层次 化 的 聚 类 : BIRCH | 


341 基于 层次 化 的 聚 类 算法 概述 


BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) 全 称 是 : 
AU BUTT EE EMAAR. BIRCH 算法 于 1996 年 由 Tian Zhang 提出 ， 是 
一 种 非常 有 效 的 、 传 统 的 层次 聚 类 算法 ， 该 算法 能 够 用 一 遍 扫 描 有 效 地 进行 聚 类 ， 并 
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能 够 有 效 地 处 理 离 群 点 ， 它 最 大 的 特点 是 能 利用 有 限 的 内 存 资源 完成 对 大 数据 集 的 高 
质量 的 聚 类 ， 同 时 通过 单 遍 扫 描 数据 集 能 最 小 化 IO 代价 。 它 克服 了 凝聚 聚 类 方法 所 
面临 的 两 个 困难 : 〈1) 可 伸缩 性 ，《〈2) 不 能 撤销 先前 步骤 所 做 的 工作 。 


3.4.2 ”BIRCH 算法 的 基本 原理 


简单 地 概括 BIRCH 算法 : BIRCH 算法 是 基于 距离 的 层次 聚 类 ， 综 合 了 层次 凝聚 和 
迭代 的 重 定位 方法 ， 首 先 用 自 底 向 上 的 层次 算法 ， 然 后 用 迭代 的 重 定位 来 改进 结果 。 而 
层次 凝聚 是 采用 自 底 向 上 策略 ， 首 先 将 每 个 对 象 作为 一 个 原子 徐 ， 然 后 合并 这 些 原子 簇 
形成 更 大 的 簇 , 减少 簇 的 数目 ， 直 到 所 有 的 对 象 都 在 一 个 簇 中, 或 某 个 终结 条 件 被 满足 。 

首先 我 们 来 介绍 两 个 概念 : 聚 类 特征 (CF) 和 聚 类 特征 树 (CF Tree) 。 

聚 类 特征 CCF) 是 BIRCH 增 量 聚 类 算法 的 核心 。CF 树 中 的 结 点 都 是 由 CF 组 成 ， 

个 CF 是 一 个 三 元 组 , 这 个 三 元 组 就 代表 了 簇 的 所 有 信息 , 用 CF= CN, LS, SS) 表示 。 


其 中 ,，N 是 子 类 中 结 点 的 数目 ，LS 是 NN 个 结 点 的 线性 和 cay 2%) » SS KEN AG 
点 的 平方 和 cay x?) 。 举 例 来 说 ， 簇 的 形 心思 ,半径 情 和 直径 DD 分 别 是 





2% Ls (3-11) 


Xy+ = 


“Nn n 
` _ 2 
和 2X, -X _ [PSS -2LS’ + nbs (3-12) 
n n 
3 
D= 2 XC a _ [2nSS—2Ls? (3-13) 
n(n—1) n(n—1) 


聚 类 特征 树 (CF Tree) 是 一 棵 具有 两 个 参数 的 高 度 平衡 树 ， 用 来 存储 层次 聚 类 
的 聚 类 特征 。 它 涉及 两 个 参数 分 支 因 子 和 阔 值 。 其 中 ， 分 支 因子 下 指定 子 结 点 的 最 
大 数目 ， 即 每 个 非 叶 结 点 可 以 拥有 的 孩子 的 最 大 数目 。 阔 值 了 指定 存储 在 叶 结 点 的 
子 艇 的 最 大 直径 ， 它 影响 着 CF - 树 的 大 小 ， 因 此 改变 阔 值 可 以 改变 树 的 大 小 。CF- 
树 是 随 着 数据 点 的 插入 而 动态 创建 的 ， 因 此 该 方法 是 增 量 的 。CF - 树 的 构造 过 程 实际 
上 是 一 个 数据 点 的 插入 过 程 ， 并 且 原 始 数据 都 在 叶子 结 点 上 。 步 又 如 下 。 

(1) 从 根 结 点 root 开始 递归 往 下 ， 计 算 当 前 条 目 与 要 插入 数据 点 之 间 的 距离 ， 
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寻找 距离 最 小 的 路 径 ， 直 到 找到 与 该 数据 点 最 接近 的 叶子 结 点 中 的 条 目 。 

(2) 比较 计算 出 的 距离 是 否 小 于 阔 值 7， 如 果 小 于 则 当前 条 目 吸 收 该 数据 点 ; 
反之 ， 则 继续 第 三 步 。 

G) 判断 当前 条 目 所 在 叶子 结 点 的 条 目 个 数 是 否 小 于 工 ， 如 果 是 ， 则 直接 将 数 
据点 插入 作为 该 数据 点 的 新 条 目 ， 否 则 需要 分 裂 该 叶子 结 点 。 分 裂 的 原则 是 寻找 该 叶 
子 结 点 中 距离 最 远 的 两 个 条 目 并 以 这 两 个 条 目 作 为 分 裂 后 两 个 新 的 叶子 结 点 的 起 始 
条 目 ， 其 他 剩 下 的 条 目 根据 距离 最 小 原则 分 配 到 这 两 个 新 的 叶子 结 点 中 ， 删 除 原 叶子 
结 点 并 更 新 整个 CF - 树 。 最 终 这 棵 树 看 起 来 如 图 3-23 所 示 。 





Root CF 











Nonleaf CF CE CE 














1 2 B 


Leaf ik-ki 


MinCluster (CF) C C C) CF) 


图 3-23 CF - 树 的 结构 

















34.3 ”BIRCH 算 法 的 优势 与 劣势 


1. BIRCH 算法 的 优势 : 

(1) 节省 内 存 。 叶子 结 点 放 在 磁盘 分 区 上 , 非 叶子 结 点 仅仅 是 存储 了 一 个 CF 值 ， 
外 加 指向 父 结 点 和 孩子 结 点 的 指针 。 

(2) 快捷 性 。 合 并 两 个 簇 只 需要 两 个 CF 算术 相 加 即 可 ; 计算 两 个 簇 的 距离 只 
需要 用 到 (N，LS，SS) 这 三 个 值 。 

G) 简便 性 。 一 遍 扫描 数据 库 即 可 建立 CF - 树 。 

2. BIRCH 算法 的 劣势 

(1) 结果 依赖 于 数据 点 的 插入 顺序 ， 本 属于 同一 个 徐 的 点 可 能 由 于 插入 顺序 相 
差 很 远 而 分 到 不 同 的 簇 中 ， 即 使 同一 个 点 在 不 同 的 时 刻 被 插入 ， 也 有 可 能 会 被 分 到 不 
同 的 簇 中 。 

(2) 对 非 球 状 的 簇 聚 类 效果 不 好 。 这 取决 于 簇 直径 和 簇 间距 离 的 计算 方法 。 
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(3) 由 于 每 个 结 点 只 能 包含 一 定数 目的 子 结 点 ， 最 后 得 出 来 的 入 可 能 和 自然 簇 
相差 很 大 。 

最 后 ， 我 们 来 讨论 BIRCH 算法 的 有 效 性 。 设 定 该 算法 的 时 间 复 杂 度 是 O(n》， 
其 中 是 被 聚 类 的 对 象 数 。 实 验 表 明 该 算法 关于 对 象 数 是 线性 可 伸缩 的 ， 并 且 具 有 较 
好 的 数据 聚 类 质量 。 然 而 ，CF - 树 的 每 个 结 点 由 于 大 小 限制 只 能 包含 有 限 的 条 目 ， 
一 个 CF - 树 结 点 并 不 总 是 对 应 于 用 户 认为 的 一 个 自然 秘 。 此外， 如 果 簇 不 是 球形 的 ， 
WW BIRCH 不 能 很 好 地 工作 ， 因 为 它 使 用 半径 或 直径 的 概念 来 控制 簇 的 边界 。 

其 他 方面 ， 聚 类 特征 和 CF - 树 概念 的 应 用 已 经 超越 BIRCH， 且 这 一 思想 已 经 被 
许多 其 他 聚 类 算法 借用 以 处 理 聚 类 流 数 据 和 动态 数据 问题 。 





3.51 基于 密度 的 聚 类 算法 概述 


DBSCAN (Density-Based Spatial Clustering of Applications with Noise， 具 有 噪声 
的 基于 密度 的 聚 类 方法 ) 是 一 个 比较 有 代表 性 的 基于 密度 的 聚 类 算法 。 与 划分 和 层次 
聚 类 方法 不 同 ， 它 将 簇 定义 为 密度 相连 的 点 的 最 大 集合 ， 能 够 把 具有 足够 高 密度 的 区 
域 划分 为 秘 ， 并 可 在 噪声 的 空间 数据 库 中 发 现任 意 形 状 的 聚 类 。 


3.5.2 ”DBSCAN 算 法 的 基本 原理 


我 们 首先 来 介绍 关于 DBSCAN 的 主要 几 个 定义 : 
(1) e- 邻 域 : 给 定 对 象 半径 为 内 的 区 域 称 为 该 对 象 的 s - 邻 域 。 
(2) 核心 对 象 : WR EMA e- 领域 内 的 样本 点 数 大 于 等 于 预先 设 定 的 最 小 数 
目 MinPts， 则 称 该 对 象 为 核心 对 象 。 
(3) 直接 密度 可 达 : 对 于 一 个 样本 集合 D， 如 果 样 本 点 4 在 p 的 -领域 内 ,并 
且 p 为 核心 对 象 ， 那 么 称 对 象 g 是 从 对 和 象 p 出 发 直接 密度 可 达 的 。 通 俗 来 说 ， 若 g 包 
含 在 核心 对 象 己 的 聚 类 艇 内 ， 称 9 Mp 出 发 是 直接 密度 可 达 的 。 
例如 ， 在 图 3-24 中 ，m 从 核心 对 象 g 和 p 出 发 是 直接 密度 可 达 的 。 
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密度 可 达 : 如 果 存 在 一 个 对 象 链 也, pono Po PHO RD MF p E D, 
1 三 i<n, pi ÆA p: XF £ F MinPts 直接 密度 可 达 的 ， 则 对 象 p 是 从 对 象 g 关 于 s 和 
MinPts 密 度 可 达 的 ,简单 来 说 ,在 一 串 取 类 簇 内 ,一 个 对 象 到 远 处 的 核心 对 象 是 密度 可 达 的 。 

如 图 3-24 HR, q Alp 之 间 不 是 直接 密度 可 达 的 ， 但 通过 核心 对 象 m 的 连接 实 
现 了 密度 可 达 。 





3-24 直接 密度 可 达 


密度 相连 :在 对 象 集合 D 中 ， 如 果 存 在 一 个 对 象 0， 使 得 对 象 和 7 都 是 从 o 关 
于 和 MinPts 密度 可 达 的 ， 那 么 对 象 s 到 了 是 关于 s 和 MinPts 密度 相连 的 。 

例如 ， 在 图 3-24 中 ，s 和 7 同时 从 o 出 发 是 密度 可 达 的 ， 即 o 将 s 和 7 连接 起 来 ， 
则 称 对 象 s FI r 是 关于 s 和 MinPts 密度 相连 的 。 

RE: 一 个 基于 密度 的 簇 是 基于 密度 可 达 性 的 最 大 的 密度 相连 对 和 象 的 集合 。 不 包 
含 在 任何 簇 中 的 对 象 被 认为 是 “噪声 ”， 即 不 属于 任何 一 个 集合 的 特殊 点 。 

1. DBSCAN 的 聚 类 过 程 

首先 ，DBSCAN 扫描 整个 数据 集合 ， 找 到 一 个 s - 领域 中 包含 大 于 MinPts 的 核 
心 对 象 ， 标 记 并 创建 一 个 以 该 点 作为 核心 对 象 的 簇 。 之 后 ， 对 该 核心 点 进行 扩充 ， 扩 
充 的 方法 是 寻找 从 该 核心 点 出 发 的 所 有 密度 相连 的 数据 点 注意 是 密度 相连 ) o W 
该 核心 点 的 邻 域内 的 所 有 核心 点 (因为 边界 点 是 无 法 扩充 的 ) ， 寻 找 与 这 些 数据 点 密 
度 相连 的 点 ， 直 到 没有 可 以 扩充 的 数据 点 为 止 。 最 后 ， 聚 类 成 的 簇 的 边界 结 点 都 是 非 
核心 数据 点 。 至 此 ， 一 个 大 的 簇 聚 类 完成 ， 该 驴 可 以 是 任意 形状 的 。 BR ERR, 
寻找 没有 被 聚 类 的 核心 点 ， 重 复 聚 类 ， 得 到 不 同 的 马 。 聚 类 结束 后 ， 没 有 包含 在 任何 
簇 中 的 点 就 构成 异常 点 ， 成 为 噪声 。 

2. 流程 





算法 3.2 DBSCAN 聚 类 算法 
输入 : 一 个 包含 n 个 对 和 象 的 数据 集 D;， 半径 参数 ec: 领域 密度 阔 值 MinPts 〈 即 包含 
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的 最 小 对 象 数 ) 
输出 : 基于 密度 的 簇 的 集合 
I 标记 所 有 对 象 为 unvisited; 
Il. Do; 
M. 随机 选择 一 个 unvisited WE p; 
IV. trid p WH visited; 
V. If Cp W e- SURED AAA MinPts 个 对 象 ) ; 
VI. 创建 一 个 新 簇 C， 并 把 p 添 加 到 C; 
VIL ANA p W e -领域 中 的 对 象 集合 ; 
VIL. For N 中 每 个 点 q; 
IX.If q 是 unvisited; 
X. 标记 q X visited; 
XLIf q 的 s - 领域 至 少 有 MinPts 个 对 象 ， 把 这 些 对 象 添加 到 N: 
XIL If 4 还 不 是 任何 簇 的 成 员 ， 把 g 添加 到 C; 
XII. End for; 
XIV. 输出 C; 
XV. Else 标记 为 噪声 ; 
XVI Until 没有 标记 为 unvisited 的 对 象 。 


3. DBSCAN 算法 的 性 能 

DBSCAN 需要 对 数据 集中 的 每 个 对 象 进行 考察 ， 通 过 检查 每 个 点 的 s - 邻 域 来 寻 
找 聚 类 ， 如 果菜 个 点 pp 为 核心 对 象 ， 则 创建 一 个 以 该 点 为 核心 对 象 的 新 徐 ， 然后 
寻找 从 核心 对 象 直接 密度 可 达 的 对 象 。 如 表 3-1 所 示 ， 如 果 采 用 空间 索引 ，DBSCAN 
的 计算 复杂 度 是 O(n log n)， 这 里 n 是 数据 库 中 对 象 的 数目 。 否 则 ， 计 算 复杂 度 是 
Ors 


表 3-1 各 种 查询 方式 的 时 间 复 杂 度 
时 间 复 杂 度 一 次 邻居 点 的 查询 DBSCAN 





| nlogn 








o GP) 


DBSCAN 算法 将 具有 足够 高 密度 的 区 域 划分 为 艇 ， 并 可 以 在 带 有 “噪声 ”的 空 
间 数 据 库 中 发 现任 意 形状 的 聚 类 。 
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但 是 ， 该 算法 对 用 户 定义 的 参数 是 敏感 的 ，s、MinPts 的 设置 将 影响 聚 类 的 效果 。 
设置 的 细微 不 同 , 会 导致 聚 类 结果 的 很 大 差别 。 为 了 解决 上 述 问题 , OPTICS (Ordering 
Points To Identify the Clustering Structure) 被 提出 ， 它 通过 引入 核心 距离 和 可 达 距 离 ， 
使 得 聚 类 算法 对 输入 的 参数 不 敏感 。 


3.5.3 ”DBSCAN 算 法 的 优势 与 劣势 


1.DBSCAN 算法 与 传统 的 聚 类 算法 相 比 有 一 些 优 势 

(1) 它 与 K-means 相 比较 ， 不 需要 事先 确定 和 输入 聚 类 艇 的 数量 ， 避 免 部 分 因 
操作 带 来 的 误差 。 

(2) 聚 类 簇 的 形状 没有 特殊 的 要 求 ， 可 以 形成 任意 形状 的 聚 类 簇 ， 更 为 直观 准确 。 

G) 识别 噪声 ， 可 以 在 需要 时 输入 过 滤 噪 声 的 参数 ， 从 而 达到 过 滤 噪 声 的 效果 。 

2. DBSCAN 算法 也 有 劣势 

(1) 不 能 很 好 反映 高 维 数据 。 

(2) 不 能 很 好 反映 数据 集 已 变化 的 密度 。 


3.6.1 基于 网 格 的 聚 类 算法 概述 


基于 网 格 和 密度 的 聚 类 方法 一 样 也 是 一 类 重要 的 聚 类 方法 。 它 们 都 在 以 空间 信息 
处 理 为 代表 的 众多 领域 有 着 广泛 应 用 。 特 别 是 伴随 着 新 近 处 理 大 规模 数据 集 、 可 伸缩 
的 聚 类 方法 的 开发 ， 其 在 空间 数据 挖掘 研究 领域 日 趋 活跃 。 基 于 网 格 的 聚 类 算法 把 对 
象 空间 量化 为 有 限 数目 的 单元 , 这 些 单元 形成 了 网 格 结构 , 聚 类 的 操作 也 在 该 结构 ( 即 
量化 的 空间 ) 上 进行 ， 围 绕 模式 组 织 由 矩形 块 划分 的 值 空间 ， 基 于 块 的 分 布 信息 进而 
实现 模式 聚 类 。 基 于 网 格 的 聚 类 算法 常常 与 其 他 方法 相 结合 ， 特 别 是 与 基于 密度 的 聚 
类 方法 相 结合 。 

基于 网 格 的 聚 类 算法 主要 有 STING、CLIQUE、WaveCluster 等 。 本 节 ， 我 们 将 
主要 介绍 CLIQUE。 
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3.6.2”CLIQUE 算 法 的 基本 原理 


数据 对 象 通常 有 数 十 个 属性 ， 其 中 许多 可 能 并 不 相关 ， 而 且 属 性 的 值 可 能 差异 很 
大 ， 这 些 因素 使 我 们 很 难 在 整个 数据 空间 找到 徐 ， 因 此 在 数据 的 子 空间 找 出 簇 可 能 会 
更 有 意义 一 些 。 例 如 ， 在 禽 流 感 患者 中 ，age、gender 和 job 属性 可 能 在 一 个 很 宽 的 
值 域 中 显著 变动 。 因 此 在 数据 集中 ， 很 难 找 出 这 样 的 能 。 然 而 ， 通 过 子 空间 搜索 ， 我 
们 可 能 在 较 低 维 空间 中 发 现 类 似 患 者 的 徐 ( 例 如 : 高 烧 ， 咳 嗽 但 不 流 鼻涕 等 症状 ， 年 
龄 在 2 ~ 16 HINA) 。 

CLIQUE (Clustering In QUEst) 算法 综合 了 基于 密度 和 基于 网 格 的 聚 类 方法 ， 它 
的 中 心思 想 是 : 首先 ， 给 定 一 个 多 维 数据 点 的 集合 ， 数 据点 在 数据 空间 中 通常 不 是 均 
衡 分 布 的 。CLIQUE 区 分 空间 中 稀疏 的 和 “拥挤 的 ”区 域 〈 或 单元 ) ， 以 发 现 数据 集 
合 的 全 局 分 布 模式 。 接 着 ， 如 果 一 个 单元 中 的 包含 数据 点 超过 了 某 个 输入 模型 参数 ， 
则 该 单元 是 密集 的 。 在 CLIQUE 中 ， 簇 定义 为 相连 的 密集 单元 的 最 大 集合 。 

CLIQUE 识别 候选 搜索 空间 的 主要 策略 是 使 用 稠密 单元 关于 维度 的 单调 性 。 这 基 
于 频繁 模式 和 关联 规则 挖掘 使 用 的 先 验 性 质 〈 在 关联 分 析 中 讲 到 ) 。 在 子 空间 聚 类 
的 背景 下 ， 单 调 性 陈述 如 下 : ~A k-4E l) 单元 c 至 少 有 六 个 点 ， 仅 当 e 的 每 
A Ck -1) 一 维 投影 〈 它 是 Ck -1) 一 维 单元 ) 至 少 有 m 个 点 。 如 图 3-25 HRA BEE 
间 包 括 三 个 维 : 年 龄 、 薪 水 和 假期 。 
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图 3-25 ”数据 空间 的 三 个 维度 
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CLIQUE 通过 两 个 阶段 进行 聚 类 。 在 第 一 阶段 中 ，CLIQUE 把 d- 维 数据 空间 划 
分 为 若干 互 不 重 叠 的 矩形 单元 ， 并 且 从 中 识别 出 稠密 单元 。CLIQUE 在 所 有 的 子 空间 
中 发 现 稠密 单元 。 为 了 做 到 这 一 点 ，CLIQUE 把 每 个 维 都 划分 成 区 间 ， 并 识别 至 少 包 
含 1 个 点 的 区 间 ， 其 中 1 是 密度 阔 值 。 然 后 ，CLIQUE 和 迭代 地 连接 子 空间 。CLIQUE 
检查 中 的 点 数 是 否 满足 密度 阐 值 。 当 没有 候选 产生 或 候选 都 不 稠密 时 ， 和 夫 代 终止 。 在 
第 二 阶段 中 ，CLIQUE 使 用 每 个 子 空间 中 的 稠密 单元 来 装配 可 能 具有 任意 形状 的 簇 。 
其 思想 是 利用 最 小 描述 长 度 (MDL) 原理 ， 使 用 最 大 区 域 来 覆盖 连接 的 稠密 单元 ， 
其 中 最 大 区 域 是 一 个 超 矩形 ， 落 入 该 区 域 中 的 每 个 单元 都 是 稠密 的 ， 并 且 该 区 域 在 该 
子 空间 的 任何 维 上 都 不 能 再 扩展 。 一 般 来 说 找 出 簇 的 最 佳 描述 是 非常 困难 的 。 因 此 ， 
CLIQUE 采用 了 一 种 简单 的 贪心 方法 。 它 从 一 个 任意 稠密 单元 开始 ， 找 出 覆盖 该 单元 
的 最 大 区 域 ， 然 后 在 尚未 被 覆盖 的 剩余 的 稠密 单元 上 继续 这 一 过 程 。 当 所 有 稠密 单元 
都 被 覆盖 时 ， 贪 心 方法 终止 。 


3.6.3 ”CLIQUE 算 法 的 优势 与 劣势 


CLIQUE 算法 能 自动 发 现 最 高 维 中 所 存在 的 密集 聚 类 ， 它 对 输入 数据 元 组 顺序 不 
敏感 ， 也 不 需要 假设 〈 数 据 集中 存在 ) 任何 特定 的 数据 分 布 ， 它 与 输入 数据 大 小 呈 线 
性 关系 ， 并 当 数 据 维 数 增 加 时 具有 较 好 的 可 扩展 性 。 但 是 ， 在 追求 方法 简单 化 的 同时 
往往 就 会 降低 聚 类 的 准确 性 。CLIQUE 最 有 用 的 特征 是 ， 它 提供 了 一 种 搜索 子 空间 发 
现 徐 的 有 效 技术 。 由 于 这 种 方法 基于 源 于 关联 分 析 的 著名 的 先 验 原 理 ， 它 的 性 质 能 够 
被 很 好 地 理解 。 另 一 个 有 用 特征 是 ，CLIQUE 用 一 小 组 不 等 式 概括 构成 一 个 簇 的 单元 
列表 的 能 力 。 

CLIQUE 的 许多 局 限 性 与 其 他 基于 网 格 的 密度 方法 类 似 。 具 体 来 说 ， 正 如 频繁 项 
集 可 以 共享 项 一 样 ，CLIQUE 发 现 的 簇 也 可 以 共享 对 象 。 允 许 簇 重 县 可 能 大 幅度 增加 
簇 的 个 数 ， 并 使 得 解释 更 加 困难 。 另 一 个 问题 是 Apriori (和 CLIQUE) 潜在 地 具有 
指数 复杂 度 。 例如， 如 果 在 较 低 的 上 值 产生 过 多 的 稠密 单元 , 则 CLIQUE 将 遇 到 困难 。 
而 提高 密度 阐 值 < 可 以 减缓 该 问题 。 
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分 类 分 析 是 一 类 重要 的 数据 挖掘 方法 ， 本 章 首先 介绍 分 类 分 析 的 基本 概念 及 其 
评估 方法 ， 然 后 介绍 几 种 最 为 典型 的 分 类 方法 ， 包 括 决策 树 分 析 、 最 近邻 分 析 、 贝 叶 
斯 分 析 、 神 经 网 络 和 支持 向 量 机 ， 其 中 重点 是 决策 树 分 析 ， 着 重 介绍 了 Chaid 算法 、 
ID3 算法 、C4.5 算法 和 CART 算法 。 

针对 各 种 分 类 分 析 算法 ， 涉 及 的 内 容 包括 : 

(1) 算法 的 基本 原理 、 操 作 步 骤 ; 

(2) 算法 在 SPSS 等 工具 软件 中 的 实 操 应 用 ; 

(3) 算法 在 实际 电信 运营 中 的 应 用 案例 。 


1. 基本 概念 

分 类 在 数据 挖掘 中 是 一 项 非常 重要 的 任务 ， 目 前 在 商业 上 应 用 最 多 。 分 类 任务 
的 输入 数据 是 记录 的 集合 。 每 条 记录 用 元 组 X, y) 表示 ， 其 中 工 是 属性 的 集合 ，? 
是 一 个 特殊 的 属性 ， 是 分 类 的 目标 属性 ， 称 为 类 标号 。 表 4-1 列 出 一 个 样本 数据 集 ， 
用 来 将 客户 的 信用 等 级 分 为 流失 和 不 流失 两 类 (1 表示 流失 ，0 表示 不 流失 ) 。 属 
性 集 指明 客户 的 性 质 ， 如 当月 可 用 余额 、 当 月 ARPU、 当 月 MOU、 当 月 DOU、 是 
否 4G 资费 等 。 从 表格 中 可 以 看 出 ， 属 性 集 有 离散 的 也 有 连续 的 ， 但 类 标号 必须 是 离 
散 属性 。 


表 4-1 移动 用 户 的 数据 集 
当月 可 用 余额 | 当月 ARPU 当月 MOU 



























































Ay (Classification) 就 是 通过 学 习 得 到 一 个 目标 函数 (Target Function) f, 可 
以 把 每 个 属性 集 x 映射 到 一 个 预定 义 的 类 标号 y。 

目标 函数 就 是 一 个 分 类 模型 Classification Model) ， 分 类 模型 主要 有 以 下 用 处 。 

C1) 描述 数据 : 分 类 模型 可 以 作为 一 种 解释 性 的 工具 ， 有 助 于 概括 表 4-1 中 的 
数据 ， 并 说 明 哪 些 特征 决定 了 客户 的 流失 。 

(2) 预测 类 标号 : 分 析 输 入 数据 ， 通 过 在 训练 集中 的 数据 表现 出 来 的 特性 ， 为 
每 一 个 类 找到 一 种 准确 的 分 类 模型 。 这 个 分 类 模型 可 以 看 作 一 个 黑箱 ， 如 图 4-1 所 示 ， 
当 给 定 未 知 记录 的 属性 集 上 的 值 时 ， 它 就 会 根据 这 些 属性 集 上 的 值 自动 地 赋予 未 知 样 
本 类 标号 ， 如 表 4-1 给 出 来 的 例子 ， 就 可 以 预测 哪些 客户 更 容易 流失 。 





输入 


输出 
mixo > | 分 类 模型 | 一 > 关 标号 (y) 


4-1 分 类 模型 的 预测 过 程 











2. 解决 分 类 问题 的 一 般 过 程 

分 类 技术 是 一 种 根据 输入 数据 集 建立 分 类 模型 〈 也 称 为 分 类 器 ) 的 系统 方法 。 分 
类 器 构造 的 方法 包括 决策 树 分 类 法 、 基 于 规则 的 分 类 法 、 神 经 网 络 、 支 持 向 量 机 和 朴 
素 贝 叶 斯 分 类 法 。 这 些 技术 都 使 用 一 种 学 习 算法 确定 分 类 模型 ， 该 模型 能 够 很 好 地 拟 
合 输入 数据 中 类 标号 和 属性 集 之 间 的 关系 ， 不 仅 如 此 ， 还 能 够 正确 地 预测 未 知 样本 的 
类 标号 ， 具 有 很 好 的 泛 化 能 力 。 于 是 ， 在 解决 分 类 问题 时 ， 首 先 需要 一 个 训练 集 (类 
标号 已 知 ) 来 建立 分 类 模型 ， 随 后 将 该 模型 运用 于 检验 集 。 图 4-2 展示 了 解决 分 类 问 
题 的 一 般 过 程 。 
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Tid | 属性 1 | 属性 2 | 属性 3 | ”类 

1 Yes Large 125K No 学 习 算 法 

2 No Medium | 100K No 

3 No Small 70K No 

4 Yes Large 120K Yes 

5 No |Medium| 67K No 归纳 x 

6 No | Small | 40K | No ~ 学 习 模 型 

了 Yes Large 26K Yes 

8 No | Medium] 95K No 

9 No Small 100K No 4 

10 No Large 68K Yes 模型 
Tid | 属性 1 | 属性 2 | 属性 3 














12 No |Medium| 100K 
13 No Small 67K 
14 Yes Large 120K 
15 No |Medium| 54K 


图 4-2 建立 分 类 模型 的 一 般 过 程 








推论 

















类 
11 Yes | Large | 125K ? 
? 
? 
学 
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1. 分 类 模型 的 评估 

分 类 模型 不 仅 要 能 够 很 好 地 拟 合 训练 数据 集 ， 还 希望 能 够 很 好 地 预测 未 知 的 类 标 
号 ， 于 是 在 评估 分 类 模型 的 时 候 ， 测 试 模型 在 检验 集 上 的 性 能 就 变 得 十 分 有 必要 了 。 
为 了 做 到 这 一 点 ， 检 验 记 录 的 类 标号 必须 是 已 知 的 。 因 此 ， 原 始 数据 就 不 能 全 部 作为 
训练 集 去 归纳 模型 ， 而 是 部 分 作为 训练 集 、 部 分 作为 检验 集 。 下 面 介绍 几 种 划分 原始 
数据 集 的 方法 。 

(1) 保持 方法 : 将 被 标记 的 原始 数据 划分 为 两 个 不 相交 的 集合 ， 训 练 集 和 检 
验 集 。 在 训练 集 上 归纳 分 类 模型 ， 在 检验 集 上 评估 模型 的 性 能 。 

这 种 方法 有 很 大 的 局 限 性 : 第 一 ， 会 使 训练 样本 变 少 。 第 二 ， 由 于 将 原始 数据 随 
机 分 组 ， 所 以 最 后 验证 集 分 类 准确 率 的 高 低 与 原始 数据 的 分 组 会 有 很 大 的 关系 。 


(2) 随机 二 次 抽样 : 随机 二 次 抽样 就 是 多 次 重复 保持 方法 。 

虽然 改进 了 保持 方法 ， 但 仍然 有 很 大 的 局 限 性 ， 首 先 训 练 阶段 利用 的 数据 仍然 较 
少 ， 并 且 ， 由 于 没有 控制 每 个 记录 用 于 训练 和 检验 的 次 数 ， 就 有 可 能 导致 用 于 训练 的 
某 一 记录 的 频率 比 其 他 记录 高 很 多 。 

(3) 交叉 验证 。 

@ 二 折 交 叉 验 证 : 把 数据 分 为 相同 大 小 的 两 个 子 集 ， 先 选择 一 个 作为 训练 集 ; 
另 一 个 作为 检验 集 ， 然 后 交换 两 个 集合 的 角色 。 

@K 折 交叉 验证 ， 把 数据 分 为 大 小 相同 的 上 份 ， 每 次 运行 ， 选 择 其 中 一 份 作为 检 
验 集 ， 其 余 的 全 作为 训练 集 ， 并 重复 上 次 该 过 程 , 使 每 份 数据 都 恰好 用 于 验证 一 次 。 

© 留 一 法 : 如 果 原 始 数据 有 N 个 样本 ， 那 么 留 一 个 样本 作为 检验 集 ， 其 余 N-1 
个 样本 作为 训练 集 ， 重 复 六 次 ， 使 每 个 样本 都 作为 过 一 次 检验 集 ， 取 六 个 模型 准确 
率 的 平均 数 作为 该 分 类 器 的 性 能 指标 。 

留 一 法 的 优点 很 明显 : 第 一 ， 每 一 次 几乎 所 有 的 样本 都 用 于 训练 模型 ， 因 此 最 接 
近 原 始 样本 的 分 布 。 第 二 ， 可 以 消除 随机 因素 对 实验 结果 的 影响 ， 从 而 确保 实验 结果 
可 以 被 复制 。 但 同样 的 ， 留 一 法 需要 建立 X 次 模型 ， 计 算 量 会 很 大 ， 而 且 ， 每 个 检 
验 集 只 有 一 个 记录 ， 性 能 估计 度量 的 方差 偏 高 。 

2. 分 类 模型 的 性 能 度量 

分 类 模型 的 性 能 根据 模型 能 够 正确 检验 记录 的 能 力 进行 评估 。 关 于 这 些 记 录 的 计 
数 存 放 在 称 作 混淆 矩阵 的 表格 中 。 表 4-2 为 一 个 描述 二 元 分 类 问题 的 混淆 矩阵 。 


R42 ”二 元 分 类 问题 的 混淆 和 矩阵 








fa 代表 原本 属于 类 1 预测 为 类 1 的 记录 数 ，j 代表 原本 属于 类 1 预测 为 类 0 的 
WR a 代表 原本 属于 类 0 预测 为 类 1 的 记录 数 ，j 代表 原本 属于 类 0 预测 为 类 0 
的 记录 数 。 混 淆 矩阵 记录 了 分 类 模型 检验 记录 的 结果 ， 但 比较 起 来 不 够 直观 。 为 此 ， 
可 以 使 用 一 些 性 能 度量 (Preformance Metric) ， 如 准确 率 (Accuracy) ， 其 定义 如 下 
正确 预测 数 _ fat Soo 
AMER fit fot fato 
同样 ， 错 误 率 (Eror Rate) 也 可 以 衡量 分 类 模型 的 性 能 ， 其 定义 如 下 


准确 率 一 





(4-1) 
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错误 预测 数 _ ft 有 n 
AMSA fi + fot fu + Soo 
WX 4-2) 可 以 看 出 ， 准 确 率 把 每 个 类 看 得 同等 重要 ， 因 此 不 适合 用 来 分 析 不 


错误 率 





(4-2) 


平衡 的 数据 集 。 而 且 ， 在 多 数 不 平衡 数据 集中 ， 稀 有 类 比 多 数 类 更 有 意义 。 例 如 ， 在 
预测 客户 是 否 投诉 时 ， 投 诉 客户 在 所 有 客户 中 所 占 的 比例 很 少 ， 属 于 稀有 类 。 但 在 预 
测 客户 是 否 投诉 时 ， 投 诉 类 就 比 非 投诉 类 更 有 意义 。 在 二 元 分 类 中 ， 通 常 稀有 类 记 为 





正 类 ， 多 数 类 记 为 负 类 。 基 于 不 平衡 数据 的 混淆 矩阵 ， 通 常会 用 到 下 列 术语 : 


© 真正 (True Positive, TP) 对 应 fh， 表示 正确 预测 的 正 样本 数 。 
© 假 负 (False Negative, FN) 对 应 fio， 表 示 错 误 预 测 为 负 类 的 正 样 本 数 。 
© 假 正 (False Positive, FP) 对 应 fi ， 表 示 错 误 预 测 为 正 类 的 负 样本 数 。 
© ji (True Negative, TN) 对 应 fi， 表示 正确 预测 的 负 样 本 数 。 
针对 不 平衡 数据 的 性 能 度量 有 以 下 几 种 : 
© 真正 率 (True Positive Rate, TPR) 或 灵敏 度 (Sensitivity ) 或 召回 率 
(Recall ) : 正确 预测 的 正 样本 占 正 样本 的 比例 ， 即 
TP 
TP + FN 
具有 高 召回 率 的 样本 ， 很 少将 正 样 本 误 分 类 为 负 样 本 。 
© 真 负 率 (True Negative Rate, TNR) 或 特 指 率 ( Specificity) : 正确 预测 的 负 
样本 占 负 样本 的 比例 ， 即 : 





TPR (43) 


TN 








TNR = (4-4) 
TN + FP 
@ 假 正 率 (False Positive Rate, FPR) : 错误 预测 为 正 类 的 负 样本 占 负 样 本 的 比例 ， 即 : 
FP 
FPR= E 
TN + FP (4-5) 
@ 假 负 率 (False Negative Rate, FNR ) : 错误 预测 为 负 类 的 正 样本 占 正 样本 的 比例 ， 即 : 
FN 
FNR= i 
TP+ FN eo) 





© 精度 (Precision, Pre) : 正确 预测 的 正 样本 占 所 有 预测 为 正 类 的 样本 的 比例 ， 即 : 


__ TP 
Pre=— 5. EP (4-7) 
3. 分 类 模型 的 性 能 比较 


比较 不 同 分 类 模型 性 能 好 坏 时 ， 最 常用 的 一 种 方法 是 接受 者 操作 特征 Receiver 
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Operating Characteristic, ROC) 曲线 。ROC 曲线 是 显示 分 类 器 真正 率 和 假 正 率 之 间 
折 中 的 一 种 图 形 化 方法 。 在 ROC HAL, y 轴 表 示 真 正 率 ，x 轴 表 示 假 正 率 。 曲 线 上 
的 每 一 个 点 对 应 一 个 分 类 模型 的 真正 率 和 假 正 率 值 。 

(1) 绘制 ROC 曲线 

为 绘制 ROC 曲线 ， 分 类 器 应 当 输 出 连续 值 ， 即 判 为 某 一 类 的 概率 ， 而 不 是 预测 
的 类 标号 。 具 体 过 程 如 下 : 

@ 对 检验 记录 的 正 类 的 连续 输出 值 递 增 排序 。 

O 选择 一 个 小 于 最 小 值 的 一 个 值 为 阔 值 ， 把 高 于 阔 值 的 记录 指派 为 正 类 。 这 种 
方法 等 价 于 把 所 有 的 检验 实例 都 分 为 正 类 。 此 时 ， 所 有 的 正 样本 都 被 正确 分 类 ， 同 时 
所 有 的 负 样 本 都 被 错误 分 类 。 所 以 TPR=FPR=1。 

@ 增 大 闵 值 ， 这 时 真正 率 会 减 小 ， 假 正 率 也 会 减 小 。 

@ 重复 步骤 @， 并 相应 地 更 新 真正 率 和 假 正 率 ， 直 到 阅 值 大 于 检验 记录 的 最 大 
值 〈 阔 值 的 最 大 值 通常 取 〇 D。 

© 根据 记录 的 真正 率 和 假 正 率 画 出 ROC 曲线 。 

(2) ROC 曲线 的 物理 意义 。 

4-3 显示 了 分 类 器 M, 和 M, 的 ROC 曲线 。 曲 线 上 每 个 模型 都 会 经 过 两 个 点 : 
一 个 是 (TPR=0,， FPR=0)， 代 表 把 每 个 实例 都 预测 为 负 类 的 模型 ， 另 一 个 是 (TPR=1， 
FPR=1) ， 表 示 把 每 个 实例 都 预测 为 正 类 的 模型 。 图 4-3 中 还 有 一 个 很 特殊 的 点 ， 位 
于 图 中 的 左上 角 即 (TPR=1, FPR=0) ， 该 点 为 理想 模型 ， 真 正 率 为 1， 假 正 率 为 0， 
所 有 正 样本 都 被 正确 预测 为 正 样本 且 没有 负 样 本 被 错误 预测 为 正 样本 。 

















0 01 02 03 0.4 0.5 06 0.7 0.8 09 1 
RE 


4-3 ”两 种 不 同 分 类 模型 的 ROC 曲线 
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ROC 曲线 有 助 于 比较 两 个 分 类 器 的 相对 性 能 。 如 图 4-3 所 示 当 假 正 率 小 于 0.35 
时 分 类 模型 M 要 优 于 M,， 而 当 假 正 率 大 于 0.35 时 模型 M BEF M. H ROC H 
线 下 方 的 面积 可 以 评估 分 类 模型 的 平均 性 能 。 理 想 模型 的 ROC 曲线 下 方 的 面积 等 于 
1， 对 于 随机 猜测 的 模型 来 说 ， 它 的 ROC 曲线 下 方 的 面积 等 于 0。 其 他 的 分 类 模型 的 
ROC 曲线 下 方面 积 介 于 这 两 者 之 间 。 ROC 曲线 下 方面 积 较 大 的 , 模型 的 平均 性 能 越 好 。 
通常 ，ROC 曲线 下 方 的 面积 用 AVC (Area Under Curre) 来 表示 。 


(43 决策 树 分 析 ) 


4.3.1 决策 树 算法 的 基本 原理 


1. 决策 树 的 工作 原理 

解释 决策 树 分 类 的 工作 原理 ， 可 考虑 上 一 节 中 介绍 的 客户 是 否 流失 的 分 类 问题 。 
假如 某 公司 的 工作 人 员 拿 到 一 份 关于 客户 的 信息 ， 怎 么 判定 它 是 否 会 流失 呢 ? 一 种 方 
法 是 针对 客户 的 属性 提出 一 系列 问题 。 第 一 个 问题 可 能 是 : 该 客户 当月 可 用 余额 为 多 
少 ? 如 果 大 于 50， 则 该 客户 肯定 不 可 能 流失 ， 如 果 小 于 50， 该 用 户 可 能 流失 也 可 能 
不 流失 。 这 个 时 候 就 需要 继续 提问 : 用 户 当 月 的 ARPU 值 为 多 少 ? 如 果 大 于 50， 则 
不 会 流失 ， 如 果 小 于 50， 则 可 能 会 流失 。 然 后 继续 提问 。 

上 面 的 例子 表明 ， 通 过 一 系列 精心 构思 的 关于 检查 记录 属性 的 问题 ， 可 以 解决 分 
类 的 问题 , 每 当 一 个 问题 得 到 答案 , 后 续 的 问题 将 随 之 而 来 ， 直到 得 知 我 们 的 类 标号 。 
将 这 一 系列 的 问题 和 回答 按照 一 定 的 顺序 组 织 起 来 ， 就 可 以 构成 决策 树 的 形式 。 

图 4-4 给 出 了 客户 流失 问题 的 一 个 决策 树 示例 ， 树 中 包含 三 种 结 点 。 


当月 可 用 余额 


<50 >50 








当月 ARPU 值 不 流失 
<50, >50 


流失 不 流失 
图 4-4 预测 客户 流失 问题 的 决策 树 


























© 根 结 点 (Iootnode ) : 没有 入 边 ， 但 有 零 条 或 多 条 出 边 。 

© 内 部 结 点 (internal node) : 仅 有 一 条 入 边 并 有 两 条 或 多 条 出 边 。 

© 叶子 结 点 (leaf node ) : 仅 有 一 条 入 边 ， 没 有 出 边 。 

每 个 叶子 结 点 都 赋予 一 个 类 标号 。 对 于 根 结 点 和 内 部 结 点 要 包含 属性 的 测试 条 
件 ， 用 以 分 开具 有 不 同 特性 的 记录 。 一 旦 构建 了 决策 树 ， 检 查 记录 并 预测 类 标号 就 相 
当 容易 了 ， 从 树 的 根 结 点 开始 将 决策 树 的 测试 条 件 用 于 待 分 类 数据 ， 根 据 数据 的 属性 
值 选择 适当 的 分 支 ， 沿 着 该 分 支 到 达 一 个 内 部 结 点 或 一 个 叶子 结 点 ， 若 到 达 一 个 内 部 
结 点 则 使 用 该 结 点 的 测试 条 件 继续 匹配 待 分 类 数据 的 属性 ;， 若 达到 一 个 叶子 结 点 ， 则 
该 叶子 结 点 的 类 标号 就 被 赋予 给 该 未 分 类 检验 记录 。 

下 面 通过 一 个 简单 的 例子 介绍 决策 树 的 构建 过 程 。 








【 例 4.1】 以 贷款 是 否 是 网 骗 行为 为 目标 变量 构建 决策 树 。 


离散 属性 离散 属性 ”连续 属性 分 类 结果 
Marital Taxable 
Refund Status Income Cheat 






































No Married | 75K No 
i aS 
No Single 90K No 


训练 数据 模型 :决策 树 

构建 决策 树 过 程 : 

(1) 首先 选择 Refund 字段 作为 分 裂 属 性 ， 即 根 结 点 ，Refund 字段 值 为 Yes 的 
其 分 类 结果 Cheat 字段 都 为 No, 不 需要 继续 分 裂 ,， 值 为 No 对 应 的 部 分 需要 继续 分 裂 。 

(2) 分 支 No 对 应 的 数据 选择 Marital Status 字段 作为 分 裂 依据 ， 其 值 为 Married 
的 数据 分 类 结果 都 为 No， 不 需要 继续 分 裂 ， 另 外 一 条 分 支 需要 继续 分 裂 。 

(3) 对 于 第 三 次 分 裂 ， 选 择 Income 字段 作为 分 裂 属 性 ， 这 里 选择 80K 作为 分 
界 点 可 以 将 数据 完全 分 类 。 至 此 ， 决 策 树 构建 结束 ， 我 们 通过 训练 数据 构建 了 一 个 树 
型 分 类 模型 。 


Tid 

1 | Yes Single 125K No 按 属 性 分 裂 
2 | No Married | 100K | No Refund |< 

3 | No Single 70K No Yes \Ne A 

4 | Yes Married | 120K | No y 

5 | No Divorced | 95K Yes | Ne ) SEES! 

6 | No Married 60K No Single, Divorci Married 
7 | Yes Dicorced | 220K No Taxine | { NO | 

8 | No Single 85K Yes <80 80K 

9 

10 
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2. 使 用 决策 树 
决策 树 具 有 分 类 预测 功能 ， 现 在 已 知 一 个 客户 的 基本 信息 ， 可 以 通过 前 面 构建 的 


决策 树 模型 来 预测 该 客户 是 否 有 欺骗 行为 ， 过 程 如 下 : 
(1) 应 用 决策 树 的 过 程 即 用 待 分 类 数据 按 树 进行 分 支 选择 ， 从 根 结 点 开始 由 上 


往 下 选择 分 支 ， 最 终 得 到 分 类 结果 。 


从 树 根 开始 测试 数据 





(3) 根 结 点 Refund (HX No, X#E No 分 支 。 
测试 数据 
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(4) 查看 分 裂 属性 Marital Status. 





(5) 属性 Marital Status 值 为 Married， 选 择 右 分 支 。 
测试 数据 


No Married 82K? 
-v 





(6) 通过 字段 进行 分 支 选 择 ， 最 终 得 到 分 类 预测 结果 为 No。 
测试 数据 





No Maried 82K? 


Married 预测 结果 为 “No” 
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下 面 是 同一 个 训练 数据 生成 的 另 一 棵 决策 树 ， 这 也 就 说 明 对 同一 个 训练 数据 通过 
不 同 的 方法 和 规则 可 以 生成 不 同 的 决策 树 。 关 于 决策 树 的 生成 规则 ， 将 在 后 续 章节 详 

















细 介 绍 。 
离散 属性 离散 属性 连续 属性 分 类 结果 
Tid Refund Marital Taxable Cheat 
i) Yes Single 125K No 
2 | No Married | 100K No 
3 | No Single 70K No 
4 | Yes Married | 120K No 
5 | No Divorced] 95K Yes 
6 | No Married | 60K No 
am) Yes Divorced| 220K No 
8 | No Single 85K Yes 
9 | No Married | 75K No 
10 | No Single 90K Yes 
训练 数据 















































MarSt 
Married / \ singe, Divorced 
{ No | | Refund 
Yes No 
{ No } | Taxine 
<80K >80K 


客户 流失 是 运营 商 非 常 关注 的 一 个 问题 。 运 营 商 早 期 在 分 析 客 户 流失 时 也 用 到 
了 分 类 分 析 里 的 决策 树 方法 。 我 们 将 流失 问题 描述 如 下 : 输入 样本 数据 (包括 字段 : 
职业 、 年 龄 、 费 用 、 费 用 变化 率 、 外 网 费用 比 、 外 网 转移 比 、 外 网 查询 、 投 诉 情况 、 
流失 ) 。 输 出 的 分 类 模型 用 于 预测 目标 属性 “流失 ”， 数据 见 表 4-3, 模型 如 图 4-5 


所 示 。 


职 业 


费用 变化 率 


表 4-3 输入 数据 





无 业 或 学 生 


49% 
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费用 变化 率 
100% <35% 
[35%,| 99%] 
流失 未 流失 
外 网 费用 比 
<50% >50% 
年 龄 职业 



































高 管 、 文 农民 、 学 

<60 >60 T. 生 或 无 业 
投诉 情况 流失 GRR) 工人 或 职工 、 GRR) 
À B G> 教师 或 公务 员 

D 外 网 转移 比 

流失 
ax) Ge) <50%, 250% 
外 网 查询 情况 









































Y, N 
GD 投诉 情况 
A B 
FAR) GK) 
图 4-5 决策 树 模型 


3. 决 策 树 归纳 算法 


算法 4.1 决策 树 归纳 算法 





输入 : MAARE, JAER F 

输出 :决策 树 

I. If stopping cond (E.F) =true Then 

IL. leaf=createNode () 

II. leaf.label=Classify (E£) 

IV. Return leaf 

V. Else 

VI. root=createNode () 

VIL. root.test_cond=find_best_split (E.F) 

VIII. 4 V={v\v Æ root.test_cond 的 一 个 可 能 的 输出 } 
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IX. For 每 个 v 属 于 VDo 

X. Ev={e| root.test_cond (e) =v 并 且 e JAF E} 

XI child=TreeGrowth (Ev, F) 

XI. 将 child 作为 root 的 派生 结 点 添加 到 树 中 ， 并 将 边 Croot 一 child) 标记 为 v 
XII. End for 

XIV. End If 

XV. Return root 


算法 给 出 了 建立 决策 树 的 归纳 算法 的 基本 框架 。 算 法 中 使 用 到 的 函数 的 具体 功能 
如 下 : 

(1) 函数 creatNode0 为 决策 树 建 立新 结 点 ， 或 者 是 一 个 测试 条 件 (node.test_ 
cond) ， 或 者 是 一 个 类 标号 (node.label) ; 

(2) 函数 find_best_split( 确定 划分 训练 记录 的 属性 ; 

(3) 函数 Classify) 为 叶子 结 点 确定 类 标号 。 对 于 每 个 叶子 结 点 二 令 己 (小 ) K 
示 该 结 点 上 属于 类 i 的 训练 记录 所 占 的 比例 ， 大 多 数 情 况 将 叶子 结 点 指派 到 具有 多 数 
记录 的 类 ; 

(4) 函数 stopping cond) 检查 是 否 所 有 的 记录 都 属于 同一 个 类 ， 或 者 是 否 具 有 
相同 的 属性 值 ， 以 决定 是 否 终 止 决策 树 的 生长 。 

4. 表示 属性 测试 条 件 的 方法 

为 了 使 决策 树 可 以 处 理 不 同类 型 的 属性 ， 我 们 必须 为 每 种 属性 提供 测试 条 件 及 其 
对 应 的 输出 方法 。 

(1) 二 元 属性 。 对 二 元 属性 的 测试 条 件 只 可 能 产生 两 种 输出 ， 如 图 4-6 所 示 。 


是 否 4G 资 费 


是 否 
图 4-6 二 元 属性 的 测试 条 件 

















(2) 标 称 属性 。 标 称 属性 有 多 个 属性 值 ， 但 不 具有 一 定 的 顺序 ， 它 的 测试 条 件 
有 两 种 表示 方法 。 例 如 ， 客 户 使 用 的 终端 品牌 有 多 个 属性 值 ， 以 苹果 、 华 为 、 三 星 三 
个 属性 值 为 例 。 一 种 方式 ， 它 的 测试 条 件 会 产生 一 个 三 路 划分 ， 如 图 4-7 (a) 所 示 。 
另 一 种 方式 ， 对 于 菜 些 只 能 产生 二 元 划分 的 决策 树 算法 来 说 ， 它 们 会 考虑 创建 个 属 
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性 值 的 二 元 划分 的 所 有 2-1 种 方法 ， 如 图 47 (b) 所 示 显 示 了 把 客户 使 用 的 终端 品 
牌 属性 值 划分 为 两 个 子 集 的 三 种 不 同 的 分 组 方法 。 


客户 终端 机 型 


苹果 华为 三 星 
(a) ”对 标 称 属性 的 多 路 划分 


客户 终端 机 型 客户 终端 机 型 客户 终端 机 型 


苹果 、 华 为 ZE | | 苹果 、 三 星 华为 | | 苹果 华为 、 三 星 
Cb) ”对 标 称 属性 的 二 路 划分 
图 4-7 




































































(3) 序数 属性 。 序 数 属 性 同样 也 是 离散 值 ， 也 可 以 产生 二 元 或 者 多 路 的 划分 ， 
但 因为 序数 属性 具有 自身 的 顺序 ， 所 以 在 为 测试 条 件 进行 划分 时 要 注意 不 要 违背 序数 
属性 值 的 有 序 性 。 例如， 客户 的 信用 等 级 可 以 有 : 一 星 级 、 二 星 级 、 三 星 级 。 如 图 4-8 
(a) 所 示 的 两 种 划分 都 是 正确 的 ， 而 如 图 4-8 (b) 所 示 的 分 组 就 违反 了 保持 数据 属 
性 有 序 性 的 原则 ， 因 为 它 把 一 星 级 和 三 星 级 分 为 了 一 组 ， 把 二 星 级 作为 另 一 组 。 


一 星 级 || 二 星 级 、 三 星 级 | | 一 星 级 || 二星 级 || 三星 级 
(a) ”序数 属性 的 正确 划分 


信用 等 级 


| 三 星 级 || 一 星 级 、 三 星 级 | 
(b) 序数 属性 的 错误 划分 


图 4-8 
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(4) 连续 属性 。 对 于 连续 属性 来 说 ， 测 试 条 件 同 样 可 以 是 一 个 二 元 划分 或 者 是 
多 路 划分 。 对 于 二 元 输出 就 需要 比较 测试 4<v) 或 (4 三 v) ， 因 此 决策 树 算法 必 
须 考 虑 所 有 可 能 的 划分 点 v， 并 从 中 选择 出 最 佳 的 划分 点 。 对 于 多 路 划分 ， 就 需要 具 
HAN v; < A<v 输出 的 范围 查询 ， 此 时 算法 必须 考虑 所 有 可 能 的 连续 区 间 ， 而 且 
还 要 保持 有 序 性 ， 如 图 4-9 所 示 。 


当月 ARPU 值 i 


是 否 <10 | | {10, 50} | | 50, 100}| | >100 












































4-9 连续 属性 的 划分 


4.3.2 CHAID 决 策 树 


4.3.2.1 CHAID 算法 简介 


CHAID 是 卡 方 自动 交互 检测 (CHi-squared Automatic Interaction Detection) 的 缩 
写 ， 是 一 种 基于 调整 后 的 显著 性 检验 〈 邦 费 罗 尼 检 验 ) 决策 树 技术 ， 它 基于 20 世纪 
六 七 十 年 代 US AD (自动 交互 效应 检测 ) 和 THAD (THETA 自动 交互 检测 ) 程序 
的 扩展 ， 是 由 戈 登 V. 卡 斯 在 1980 年 创建 的 技术 。CHAID 是 一 个 用 来 发 现 变量 之 间 
关系 的 工具 ， 可 用 于 预测 〈 类 似 回归 分 析 ，CHAID 最 初 被 称 为 XAID ) 以 及 分 类 ， 
并 用 于 检测 变量 之 间 的 相互 作用 。 在 实践 中 ，CHAID 经 常 使 用 在 直销 的 背景 下 ， 
选择 消费 者 群体 ， 并 预测 他 们 的 反应 。 和 其 他 决策 树 一 样 ，CHAID 的 优势 是 它 的 
结果 非常 直观 且 易于 理解 。 由 于 默认 情况 下 CHAD 采用 多 路 分 割 ， 需 要 相当 大 的 样 
本 量 来 有 效 地 开展 工作 ， 而 小 样本 组 受 访 者 会 迅速 分 为 更 小 的 组 ， 而 无 法 进行 可 靠 的 
分 析 。 


4.3.2.2 CHAID 算法 原理 


CHAID 算法 全 称 是 Chi-squared Automatic Interaction Detector， 可 以 翻译 为 卡 方 
自动 交叉 检验 。 从 名 称 可 以 看 出 ， 它 的 核心 是 卡 方 检验 。 卡 方 检 验 也 是 CHAD 决策 
树 用 来 选择 以 哪个 属性 作为 分 支 属 性 的 依据 。 我 们 先 来 了 解 一 下 什么 是 卡 方 检验 。 


第 4 章 分 类 分 析 


卡 方 检验 提供 了 一 种 在 多 个 自 变量 中 搜索 与 因 变量 最 具 相 关 性 的 变量 的 方案 。 它 
通过 计算 卡 方 值 评估 两 个 变量 之 间 的 相关 性 程度 。 


表 4-4 X, YER 














设 变量 了 与 的 分 布 情况 如 表 4-4 所 示 , 若 要 推断 的 论述 为 Hl: “XG YARRA”, 
可 以 利用 卡 方 值 来 考察 两 个 二 维 变 量 是 否 有 关系 ， 计 算 公 式 如 下 : 
2 n(ad — be} 
(a+b)(c+d)(a+c)(b+d) 
计算 的 卡 方 值 越 大 ， 表 明 两 个 变量 的 相依 程度 越 高 。 参 考 卡 方 检验 临界 值 表 ， 得 
到 卡 方 与 显著 性 水 平 a 的 关系 如 表 4-5 和 图 4-10 所 示 。 


R45 卡 方 值 与 显著 性 水 平 关系 表 
e po po lm lm po | 
jx po pos poo [pos Joon ___| 


(4-8 ) 















































0 | 
0 2 4 6 8 10 12 K 


一 一 不 相关 性 一 相关 性 (置信 概率 ) 
图 4-10 卡 方 与 显著 性 水 平 关系 
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KA, WH) 的 置信 概率 已 越 大 ， 表 示 工 和 了 有 关系 的 可 能 性 越 强 。 
例如 : 请 判断 表 4-6 中 移动 用 户 话费 是 否 超过 200 元 和 流量 是 否 超过 1G 是 否 具 
有 相关 性 。 


R46 用户 话费 和 流量 使 用 情况 
流量 超过 1G 流量 未 超过 1G 
话费 超过 200 元 20 








话费 未 超过 200 元 
总 计 








可 以 算出 “流量 超过 1G” 与 “话费 超过 200 元 ”的 卡 方 值 为 7.822。 根 据 表 4-6, 
因为 7.822 > 6.635， 所 以 认为 “流量 超过 1G” 与 “话费 超过 200 元 ”有 关系 成 立 的 
概率 应 大 于 0.99， 小 于 0.995。 

公式 (4-8) 只 能 计算 两 个 二 值 变 量 间 的 卡 方 值 ， 然 而 实际 数据 大 多 为 多 值 数据 ， 
设 两 个 变量 的 取 值 个 数 分 别 为 和 c， 此 时 卡 方 值 的 计算 公式 如 式 〈4-9) 所 示 。 





na ny ny, ny, ny, ny, 


其 中 ，4.， 取 变量 x 取 第 7 个 值 ， 变 量 y 取 第 值 的 样本 总 数 ， 必 为 变量 x 取 第 
r 个 值 的 数据 总 量 ，n, 为 变量 y 取 第 c 个 值 的 样本 总 数 ，n 为 总 样本 数 。 

在 构建 CHAID 决策 树 时 ， 通 过 计算 各 个 自 变量 与 因 变量 之 间 的 卡 方 值 进而 选择 
卡 方 值 最 大 的 自 变量 作为 决策 树 的 分 支 准则 。 其 伪 代 码 如 下 : 


算法 4.2 CHAID 算法 





输入 : 训练 集 数据 S$， 训 练 集 数 据 属性 集合 F; 

输出 :; CHAID 决策 树 

DT (S, F) 

I 下 样本 S 全 部 属于 同一 个 类 别 C Then 

IL 创建 一 个 叶子 结 点 ， 并 标记 类 标号 为 C; 

II. Return; 

IVElse 

计算 属性 集 下 中 目标 属性 与 其 他 每 一 个 属性 的 卡 方 值 , 取 卡 方 值 最 大 的 属性 4 
VI 创建 结 点 ， 取 属性 4 为 该 结 点 的 决策 属性 ; 

VILFor 结 点 属性 4 的 每 个 可 能 的 取 值 V Do 


VIL. 为 该 结 点 添加 一 个 新 的 分 支 ， 假 设 S, 为 属性 4 取 值 为 严 的 样本 子 集 ; 


IX. If FEA S, 全 部 属于 同一 个 类 别 C Then; 

X. 为 该 分 支 添加 一 个 叶子 结 点 ， 并 标记 类 标号 为 C; 
XIElse; 

XO. 递归 调用 DT (S,, F-{4}) ， 为 该 分 支 创建 子 树 ; 
XIILEnd If; 

XIV.End For; 

XV.End If. 


4.3.2.3 CHIAD 算法 实例 分 析 








【 例 4.2】 


表 4-7 是 外 呼 4G 终端 是 否 成 功 的 统计 表格 ， 其 中 “1” 表 示 外 呼 成 功 ， 而 “0” 


表示 外 呼 失 败 。 请 根据 已 有 数据 分 析 构 建 深度 为 2 的 CHAID 决策 树 


表 4-7 ”外 呼 4G 终端 是 否 成 功 


























1 
0 
0 
1 
0 
1 
0 
0 
1 
0 
1 
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外 呼 不 成 功 外 呼 成 功 











外 呼 不 成 功 外 呼 成 功 











外 呼 成 功 














过 公式 (48) 计算 各 属性 与 目标 属性 卡 方 值 ， 计 算 结果 如 下 : 
K (终端 制式 ) =2.396 
K (当月 MOU ) =1.222 
K (当月 DOU ) =0.110 
K (在 网 时 长 ) =1.060 
发 现 终端 制式 计算 出 来 的 卡 方 值 最 大 ， 因 此 选择 终端 制式 属性 作为 CHAD 决策 
树 的 根 结 点 能 有 效 地 区 分 外 呼 是 否 成 功 
第 二 步 : 针对 TD_LTE 分 支 的 数据 ， 进 行 最 优 属性 选择 。 通 过 列 联 表 计 算 目 标 
属性 与 各 个 属性 对 应 的 卡 方 值 : 


i 


外 呼 不 成 功 外 呼 成 功 








外 呼 不 成 功 









































通过 公式 (48) 计算 各 属性 与 目标 属性 卡 方 值 ， 计 算 结果 如 下 : 
K (当月 MOU ) =0.833 
K (当月 DOU ) =1.875 
K (在 网 时 长 =0.833 
发 现 当 月 DOV 属性 计算 出 来 的 卡 方 值 最 大 ， 因 此 选择 当月 DOV 属性 作为 TD_ 
LTE 分 支 的 分 裂 属性 。 
第 三 步 : 对 于 WCDMA 分 支 ， 按 照 第 二 步 的 步骤 ， 最 后 选择 当月 MOU 属性 作 
为 分 裂 属性 ( 过 程 略 ) 。 最 终 得 到 深度 为 2 的 决策 树 ， 见 图 4-11。 


终端 制式 








图 4-11 深度 为 2 的 决策 树 


【 例 43]】 


假设 某 公 司 人 力 资源 部 门 欲 了 解职 员 的 表现 是 否 受到 年 资 、 受 教育 程度 、 具 备 相 
关 经验 的 影响 ， 找 出 其 绩效 评级 的 分 类 规则 ， 从 而 建立 人 才 招 慕 系 统 的 知识 法 则 ， 以 
应 用 于 后 续 的 招 幕 程序 。 首 先 ， 收 集 该 公司 员工 的 相关 数据 ， 抽 取 10 位 现职 员工 为 
样本 ， 为 方便 说 明 如 何 计算 各 项 分 支 准则 ， 将 年 资 属性 值 分 为 3 个 区 间 ， 分 别 为 5 年 
以 下 、5 年 至 10 年 、 10 年 以 上 ， 并 将 教育 程度 中 硕士 与 博士 合并 为 研究 所 ， 转 换 后 
的 数据 如 表 4-8 所 示 。 根 据 CHAID 算法 找 出 最 优 根 结 点 属性 。 


R48 某 公司 人 力 资 源 部 职员 表现 
FA (A) 受 教育 程度 ( B ) | 有 无 相关 经 验 (C ) 员工 表现 














5 年 以 下 研究 所 优等 
002 10 年 以 上 研究 所 否 普通 
003 [5 年 以 下 研究 所 是 | 优等 
004 [DEAF 大 专 是 E 
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( 续 表 ) 
| 职员 | fal 。 | 受 教育 程度 (B ) | 有 无 相关 经 验 (C) RIRH | 
5 年 以 下 
[10 年 以 上 
|5 年 至 10 年 
pee 104 























kG = iy 
卡 方 统计 量 K* Daba g Sa, RPE AAP iA 
E, 
性 与 第 j 种 类 数目 的 期 望 值 。 列 出 所 有 其 他 属性 与 目标 属性 的 列 联 表 : 
属性 :年 次 
总 计 


5 年 到 10 年 1 CES) 2 (1.5) 
Age 1 (1.0) 1 (1.0) 























计算 卡 方 统计 量 : 
(3-2.5) 42 -2.5 (1-2.5 (2-15 (1-1) , 0-1)? 
<)> 2.5 2 1s is J ’, 1 
= 0.533 
及 2( 受 教育 程度 ) = (0-1.5) 6LF Ş 6335F 7 (2-35) 


LS 15 35 3.5 
= 4.286 
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2 ; _ 4-3" | 2-3" 0-7 ,8-2 
天 ?2( 有 无 相关 经 验 ) = hie ae 


= 1.67 
由 于 受 教育 程度 的 卡 方 值 最 大 ， 可 知 选 受 教育 程度 作为 分 支 属性 最 能 区 分 员工 效 
绩 评级 结果 。 








4.3.3 1ID3 决 策 树 


4.3.3.1 ID3 算法 原理 


基本 决策 树 构 造 算法 通常 采用 贪心 策略 ， 即 在 选择 划分 数据 的 属性 时 ， 采 取 一 系 
列 局 部 最 优 决策 来 构建 决策 树 ， 它 采用 自 顶 向 下 的 递归 方法 构造 决策 树 。 著 名 的 决策 
树 算法 ID3 的 基本 策略 如 下 : 

(1) 以 代表 训练 样本 的 单个 结 点 开始 。 

(2) 如 果 样 本 都 在 同一 个 类 中 ， 则 这 个 结 点 称 为 树叶 结 点 并 标记 该 类 别 。 

(3) 否则 算法 使 用 信息 增益 值 帮助 选择 出 适合 的 将 样本 分 类 的 属性 ， 以 便 将 样 
本 集 划分 为 若干 子 集 ， 该 属性 就 是 相应 结 点 的 测试 属性 〈 所 有 属性 应 当 是 离散 值 ) 。 

C4) 对 选 到 的 测试 属性 的 每 个 离散 值 创建 一 个 分 支 ， 划 分 样本 。 

(5) 在 决策 树 中 ， 每 一 个 非 叶子 结 点 都 将 与 属性 中 具有 最 大 信息 量 的 非 类 别 属 
性 相关 联 。 

(6) 递归 调用 上 述 算法 ， 在 每 个 划分 上 形成 子 树 。 需 要 注意 的 是 ， 一 个 属性 一 
且 出 现在 某 一 个 结 点 上 ， 那 么 它 就 不 能 再 出 现在 该 结 点 之 后 所 形成 的 子 树 结 点 中 。 

D 当 给 定 结 点 的 所 有 样本 都 属于 同一 类 ， 或 者 具有 相同 的 属性 时 停止 建树 。 

ID3 算法 的 核心 是 在 决策 树 选择 属性 时 ， 用 信息 增益 作为 属性 的 选择 标准 ， 使 得 
每 一 个 结 点 在 进行 测试 时 ， 能 获得 关于 测试 记录 的 最 大 化 类 别 信息 。 


43.3.2 IS Bisa 


为 了 对 样本 做 出 最 优 的 分 类 ， 我 们 需要 选择 出 最 佳 划分 的 度量 ， 选 择 最 佳 划分 的 
度量 通常 是 根据 划分 后 子女 结 点 不 纯 性 的 程度 ， 不 纯 程 度 越 低 ， 子 女 结 点 越 纯 ， 类 分 
布 就 越 倾斜 ， 判 为 某 类 的 准确 度 就 越 高 。ID3 算法 用 信息 增益 值 作为 划分 度量 。 

设 刀 是 训练 数据 集 , 它 包 括 大 个 类 别 的 样本 , 这 些 类 别 分 别 用 Ci, C,,…，, GRR, 
BA D iki Centropy) 或 者 信息 量 就 为 
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Info(D) = -2 pilog, ,) (4-10) 


其 中 , p 表示 类 GC; 在 总 训练 数据 集中 出 现 的 概率 。1nfo D) 表示 确定 数据 集 忆 
中 的 一 个 类 别 需 要 的 信息 量 。 数 据 集 的 概率 分 布 越 均 衡 ， 它 的 信息 量 〈 粹 ) 就 越 大 ， 
确定 一 个 类 别 需 要 的 信息 量 就 越 多 ， 数 据 集 的 杂乱 程度 也 就 越 高 。 因 此 ， 炳 可 以 作为 
判断 训练 集 不 纯度 impurity》 的 一 个 度量 : HRK, MARERE o 

若 我 们 根据 非 类 别 属性 4 的 值 将 数据 集 忆 分 成 子 集合 4,，4,, … ，4,， 则 确定 DD 
中 一 个 元 素 类 的 信息 量 可 以 通过 确定 A 的 加 权 平 均值 来 得 到 ， 即 Info (4;〉 的 加 权 平 
均值 为 


1 
Info, (D) = Info, (4-11) 
i=l 


Ep, 4, ERRER 4 划分 数据 集 吃 后 第 i 个 子 集 ， x 表示 4; 所 包含 的 训练 
数据 的 个 数 ，N 表示 训练 数据 集 的 样本 总 数 。 所 以 Info, D) 表示 了 已 知 属性 4 的 值 
JE, MERRE D 中 的 一 个 元 素 需 要 的 信息 量 。 

为 了 确定 测试 条 件 的 效果 ， 比 较 父 结 点 (划分 前 ) 的 不 纯度 和 子女 结 点 (划分 后 》 
的 不 纯 程 度 ， 它 们 的 差 越 大 ， 测 试 条 件 的 效果 越 好 。 增 益 是 一 种 可 以 用 来 确定 划分 效 
果 的 标准 。 炉 的 差 值 就 是 信息 增益 (Information Measurement) 。 式 (4-12) 为 信息 
增益 的 计算 公式 ， 用 来 衡量 箭 的 期 望 减少 值 。 

Gain (A) =Info (D) - Info, (D) (4-12) 

Gain (A) 是 指 因为 知道 属性 4 WEJ SR JE. Gain (A) 越 大 ， 说 明 
选择 属性 A 为 测试 属性 对 分 类 提供 的 信息 越 多 。 按 照 信息 增益 的 定义 信息 增益 越 大 ， 
科 的 减少 量 越 多 ， 子 女 结 点 就 趋向 于 越 纯 。 因 此 ， 可 以 对 每 个 属性 按照 它 的 信息 增益 
大 小 排序 ， 获 得 最 大 信息 增益 的 属性 被 选择 为 分 支 属性 。 


4.3.3.3 ID3 算法 伪 代 码 





算法 4.3 ID3 算法 


输入 : 全 体 样本 集 卫 全 体 属性 集 Q; 

输出 : ID3 决策 树 

I 初始 化 决策 树 7， 使 其 只 包含 一 个 根 结 点 (X,，0Q) ; 

IL 下 决策 树 了 中 所 有 叶子 结 点 〈X，0Q) 都 满足 ， 属 于 同一 类 或 O' 为 空 Then 


m. 算法 停止 ; 

IV. Else; 

IV. 任 取 一 个 不 具有 开 中 所 述 状态 的 叶子 结 点 CX’, O' ) ; 

IV. For each O’ 中 的 属性 A Do 计算 信息 增益 Gain (A, X' ) ; 

VIL 选择 具有 最 高 信息 增益 的 属性 了 作为 结 点 CY’. O' ) 的 测试 属性 ; 
VIILFor each B 的 取 值 b;; 

IX.Do 对 BSF b NRX, ARM OX! ，Q' -{B}) ; 
X. 转 到 IL. 


43.3.4 ”ID3 算法 的 特点 


ID3 算法 的 优点 : 算法 的 理论 清晰 ， 方 法 简单 ， 易 于 理解 ， 学 习 能 力 较 强 。 

ID3 算法 的 缺点 : 

d) 信息 增益 对 可 取 值 数目 较 多 的 属性 有 所 偏好 ， 比 如 通过 ID 号 可 将 每 个 样 
本 分 成 一 类 ， 但 没有 意义 。 

(2) ID3 只 能 对 离散 属性 的 数据 集 构造 决策 树 。 

(3) ID3 是 非 递增 算法 。 

(4) 因为 它 是 一 种 自 顶 向 下 的 贪心 算法 ， 所 以 可 能 会 收敛 于 局 部 最 优 解 而 丢失 
全 局 最 优 解 。 

(5) ID3 是 单 变量 决策 树 ， 没 有 考虑 属性 间 的 相互 关系 ， 这 就 很 容易 导致 子 树 
或 属性 的 重复 。 


4.3.3.5 ID3 算法 的 案例 分 析 








[Ø 4.4] 
对 于 表 4-9 的 数据 ， 使 用 信息 增益 进行 决策 树 归纳 ， 找 出 根 结 点 。 


表 4-9 顾客 数据 库 标 记 类 的 训练 元 组 
income student credit _rating Class buys_computer 














2 
3 | middle aged | high no fair | yes 
4 


| senior | medium no fair | yes 
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(BR) 


income | student | credit _rating Class buys_computer 














senior 





youth 





middle aged 





middle aged 


senior ium [no [excellent 














在 这 个 例子 中 ， 每 个 属性 都 是 离散 值 的 ， 连 续 值 属性 已 经 被 离散 化 。 类 标号 
属性 buys _computer=yes 有 两 个 不 同 值 ( 即 yes BÈ no) ， 因 此 有 两 个 不 同 的 类 〈 即 
m=2) 。 设 类 C, 对 应 于 yes, 而 类 C, 对 应 于 no。 类 yes 有 9 个 元 组 ， 类 mo 有 5 个 元 组 。 
为 DD 中 的 元 组 创建 ( 根 ) 结 点 N。 为 了 找 出 这 些 元 组 的 分 裂 准则 ， 必 须 计算 每 个 属 
性 的 信息 增益 。 首 先 使 用 式 〈4-10) ， 计 算 对 D 中 元 组 分 类 所 需要 的 期 望 信息 为 

9 


Info(D) =~ 225 > = 0,940 
yo) 8: 14 14 8, 14 


下 一 步 ， 需 要 计算 每 个 属性 的 期 望 信息 需求 。 从 属性 age 开始 。 需 要 对 age 的 每 
个 类 考察 yes 和 no 元 组 的 no 分 布 。 对 于 age 的 类 “youth”， 有 两 个 yes 元 组 ，3 个 
no 元 组 。 对 于 类 “middle_ aged”, 有 4 个 yes TA, 0^ no 元 组 。 对 于 类 “senior”， 
有 3 个 yes 元 组 ，2 个 no 元 组 。 使 用 式 (4-11) ， 如 果 元 组 根据 age 划分 ， 则 对 DD 中 
的 元 组 进行 分 类 所 需要 的 期 望 信息 为 








2 23 3 4 0 0 
Infoa (D) = ae 518.5 508. 5)* a gle, 4 9 8, p 
3 2 
+ Ftog, Se 2) 
= 0.694 
因此 这 种 划分 的 信息 增益 为 


Gain(age) = Info(D) — Info,,, (D) = 0.940 — 0.694 = 0.246 
类 似 的 ， 可 以 计算 
Gain (income) =0.029 





第 4 章 分 类 分 析 


Gain( student) = 0,151 
Gain(credit _ rating ) = 0.048 
由 于 age 在 属性 中 具有 最 高 的 信息 增益 ， 所 以 它 被 选 作 分 裂 属性 。 结 点 N 用 age 
标记 ， 并 且 每 个 属性 值 生 长 出 一 个 分 枝 。 然 后 元 组 据 此 划分 ， 如 图 4-12 所 示 。 注 意 ， 
落 在 分 区 age-middle_aged 的 元 组 都 属于 相同 的 类 。 由 于 它们 都 属于 类 “yes”， 所 以 
要 在 该 分 枝 的 端点 创建 一 个 树叶 ， 并 用 “yes” 标 记 。 







































































age 
income | student | Credit rating | class income | student | Credit_rating | class 
high no fair no medium | no fair yes 
high no excellent no low yes fair yes 
medium | no fair no low yes excellent no 
low yes fair yes medium | yes fair yes 
medium | yes excellent yes medium | no excellent no 

income | student | Credit ating class 

high no fair yes 

low yes excellent yes 

medium | no excellent yes 

high yes fair yes 




















4-12 HAR IEE 


43.4 C4 5R 


43.4.1 C45 算法 原理 


上 文中 提 到 ID3 还 存在 许多 需要 改进 的 地 方 ， 于 是 ，Quinlan 在 1993 年 提出 了 
ID3 算法 的 改进 版 本 C4.5。 C4.5 算法 的 核心 思想 与 ID3 完全 一 样 ， 它 与 ID3 算法 不 
同 的 地 方 包括 : 

(1) 划分 度量 采用 增益 率 ; 

(2) 能 够 处 理 数值 属性 ; 

(3) 能 够 处 理 未 知 属性 ; 
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(4) 采用 大 次 迭代 交叉 验证 来 评估 模型 的 优 劣 程度 ; 

(5) 提供 了 将 决策 树 模 型 转换 为 二 then 规则 的 算法 。 

1. 增益 率 

信息 增益 趋向 选择 具有 最 大 不 同 取 值 的 属性 。 因 为 具有 大 量 不 同 值 的 属性 被 选 为 
分 支 属 性 后 ， 能 够 产生 许多 小 而 纯 的 子 集 ， 会 很 明显 地 降低 子女 结 点 的 不 纯 性 ， 但 这 
种 属性 很 多 时 候 不 是 一 个 具有 预测 性 的 属性 。 例 如 用 户 ID， 根 据 这 样 的 属性 划分 的 
子 集 都 是 单元 集 ， 对 应 的 结 点 当然 就 是 纯 结 点 。 即 使 在 不 太极 端的 情况 下 ， 也 不 希望 产 
生 大 量 输出 的 条 件 ,因为 与 每 个 划分 相关 联 的 记录 太 少 , 以致 不 能 够 做 出 可 靠 的 预测 。 

解决 以 上 问题 的 方法 有 两 种 。 一 种 方法 是 限制 测试 条 件 的 划分 个 数 ， 例 如 CART 
算法 就 限制 测试 条 件 只 能 二 元 划分 ， 另 一 种 方法 是 修改 度量 标准 ， 把 划分 属性 的 输出 
数 也 考虑 进去 。Quinlan 提出 使 用 增益 率 来 代替 增益 比例 。 

我 们 先 来 考虑 训练 数据 集 关 于 属性 4 RE CD) SplitInfo (A) ， 这 个 信息 
量 与 训练 数据 集 的 类 别 无 关 ， 计 算 公式 如 下 : 


=X E 
SplitInfo(A) =- log, + (4-13) 
plitInfe ZN By 


假设 ， 属 性 4 ERARE D PMP A, A os Ap MARL x, EIR 
A 所 包含 的 训练 数据 的 个 数 ，N 表示 训练 数据 集 的 样本 总 数 。 训 练 数 据 集 在 属性 4 
上 的 分 布 越 均匀 SplitInfo (A) 的 值 越 大 。 因 此 ，sSplitInfo (A) 可 以 用 来 衡量 分 裂 属 
性 数据 的 广度 和 均匀 性 。 关 于 属性 4 的 增益 率 计算 如 下 
Gain(A) 
1000 (4-14) 

如 果 某 个 属性 产生 了 大 量 的 划分 ， 那 么 数据 集 关 于 该 属性 的 信息 量 就 会 很 大 ， 从 
而 降低 了 信息 率 。 但 是 ， 当 某 个 属性 存在 一 个 羡 妾 六 时 ， 它 的 SplitInfo 将 非常 小 ， 
从 而 导致 增益 率 异 常 大 ， 为 了 解决 此 问题 C4.5 算法 进行 了 进一步 的 改进 ， 它 计算 每 
个 属性 的 信息 增益 ， 只 对 超过 平均 信息 增益 的 属性 通过 增益 率 来 进一步 比较 选取 。 

2. 处 理 有 连续 值 的 属性 

C4.5 算法 处 理 具有 连续 值 属性 的 方法 如 下 : 

(1) 按照 属性 值 对 训练 数据 集 进 行 排序 ; 

(2) 取 当 前 样本 的 属性 值 和 前 一 个 样本 属性 值 的 中 点 作为 一 个 阔 值 ; 

G) 按照 步骤 (1) 中 排 好 的 顺序 , 依次 改变 当前 样本 的 属性 值 , 重复 步骤 (2) ; 

(4) 得 到 所 有 可 能 的 阐 值 、 增 益 、 增 益 率 。 

如 此 ， 每 个 具有 连续 值 的 属性 就 会 被 划分 为 两 个 区 间 ， 大 于 阅 值 或 者 小 于 阅 值 。 


GainRatio(A) = 


3. 对 未 知 属 性 值 的 处 理 

C4.5 算法 在 处 理 训练 数据 集 时 ， 若 遇 到 未 知 属性 值 一 般 会 采取 以 下 方法 之 一 

(1) 将 未 知 值 用 最 常用 的 值 代替 

(2) 将 未 知 值 用 该 属性 所 有 取 值 的 平均 值 代替 ; 

(3) 采用 概率 的 办 法 ， 为 未 知 属性 值 取 每 一 个 值 赋予 一 个 概率 ， 这 些 概 率 的 获 
取 依赖 于 已 知 的 属性 值 的 分 布 ， 在 建立 决策 树 时 将 这 些 概率 分 配 到 子 结 点 中 去 。 

AKRERRA BIE 

把 数据 分 为 大 小 相同 的 大 份 ， 每 次 运行 ， 选 择 其 中 一 份 作 为 检验 集 ， 其 余 的 全 作 
为 训练 集 ， 并 重复 上 次 该 过 程 , 使 得 每 份 数据 都 用 于 验证 恰好 一 次 。 这 么 做 可 以 使 尽 
可 能 多 的 样本 用 于 训练 模型 ， 从 而 更 加 接近 原始 样本 的 分 布 。 另 外 ， 也 可 以 减少 随机 
因素 对 实验 结果 的 影响 。 


4.3.4.2 C4.5 算法 的 伪 代 码 
假设 用 S 代表 当前 样本 集 , 当前 候选 属性 集 用 A 表示 ，C4.5 算法 的 伪 代 码 如 下 


算法 4.4 C4.5 算法 





输入 : 训练 样本 S: 候选 属性 的 集合 4。 

输出 : 一 棵 决策 树 To 

T(S, A) 

I 创建 根 结 点 N; 

IL If S 都 属于 同一 类 C; 

M 返回 和 N 为 叶子 结 点 ， 标 记 为 类 C; 

IV. Else if A AZ, 或 者 5S 中 所 剩 的 样本 数 少 于 某 给 定 值 ， 则 返回 入 为 叶子 结 点 ， 
标记 入 为 S 中 出 现 最 多 的 类 ; 

V. For each 4 中 的 属性 ， 计 算 信息 增益 率 ; 

VE N 的 测试 属性 B=4 中 具有 最 高 信息 增益 率 的 属性 ; 

VIL. For each B=b; 为 的 数据 集 8%， 和 迭代 调用 函数 了 T (5S,，4-B) ; 

VIL. 计算 每 个 结 点 的 分 类 错误 ， 进 行 前 枝 。 


43.43 ”C4.5 算法 的 特点 


C4.5 算法 的 优点 : 产生 的 规则 易于 理解 ， 准 确 率 较 高 。 
C4.5 算法 的 缺点 : 在 构造 树 的 过 程 中 需要 对 数据 进行 多 次 顺序 扫描 和 排序 ， 导 
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致 算法 效率 较 低 。 
43.44 C45 算法 案例 分 析 











[ Bil 4.5 


假设 某 公 司 人 力 资源 部 门 欲 了 解职 员 的 表现 是 否 受到 年 资 、 受 教育 程度 、 具 备 相 
关 经 验 的 影响 ， 找 出 其 绩效 评级 的 分 类 规则 ， 建 立 人 才 招 募 系统 的 知识 法 则 ， 以 应 用 
于 后 续 的 招募 程序 。 根 据 信息 增益 找到 构建 C4.5 决策 树 分 支 必 性， 数据 见 表 4-10, 


表 4-10 某 公司 人 力 资源 部 门 职员 表现 


职员 HR (A) 受 教育 程度 ( B ) | 有 无 相关 经 验 (C ) 员工 表现 














001 |5 年 下 是 优等 
002 |10 年 以 上 a 普通 
003 |5 年 以 下 是 优等 
wos [swe e ja ma 
005 |5 年 以 下 a 优等 
oos |10 年 以 上 是 i 
007 FEE 7 wa 
008 5 年 至 10 年 是 优等 
009 EEE wa 
010 [5 年 以 下 是 普通 
eh 
SplitInfo( 年 资 ) Te D i0: 0 i0% 7 1.485 
, 育 程 度 )=_3log 2-—Liog -= 
SplitInfo( 教 育 程度 ) = T log, 10710 log, Ta 0.881 
6, 6 4, 4 
Splith 无 相关 经 验 )= 一 一 log 一 一 一 log —=0.971 
SplitInfo( 有 无 相关 经 验 ) oo n Eo 


由 公式 (4-12) 可 得 各 属性 信息 增益 为 : 
Gain( 年 资 )= Info(D)-Infosx(D)=0.039 


Gain( 受 教育 程度 )=Info(D)-Infos 5442» (D)=0.396 





Gain( 有 无 相关 经 验 )= Info(D) — Infos g azae (D) = 0.125 
所 以 信息 增益 率 为 : 


Gain(A) _0039 _0026 


CRED piod 1485 





Gain(A) 0369 o 449 


CRER ER SplitInfo(A) 0.881 ` 





Gain(A) _ 0.125 
= 一 -一 =0.129 
SplitInfo(A) 0.971 


由 于 受 教 育 程度 的 信息 增益 率 最 大 ， 所 以 以 受 教育 程度 作为 C4.5 决策 树 的 根 结 
点 分 支 属 性 能 够 得 到 有 效 的 区 分 职员 效 绩 评级 结果 。 


GR( 有 无 相关 经 验 )= 





4.3.5 ”CART 决 策 树 


4.3.5.1 CART 决策 树 原 理 介绍 


CART 以 Gini 系数 作为 决定 分 支 变量 的 准则 ， 在 每 个 分 支 结 点 进行 数据 分 
隔 ， 并 建立 一 个 二 分 式 的 决策 树 ， 以 决定 最 佳 分 支 变量 (Breiman et al., 1984) 。 
CART 的 特色 除了 为 二 元 分 支 算法 外 ， 也 能 处 理 类 别 型 变量 以 及 连续 型 变量 的 分 类 
问题 。 

首先 ， 给 定 一 个 结 点 t， 以 Gini 系数 对 分 支 变 量 进行 二 元 分 割 ， 假 设 属性 的 分 
KFH s hea 与 tam 分 别 为 结 点 1 的 左 、 右 子 结 点 ， 并 比较 分 支 前 后 的 纯度 差异 ， 
如 式 : 

AGini(s, t) = Gini(t)—[Gini(t,..) + Gini(tion)] (4-15) 

若 AGini (s, 1) >0， 表 示 子 结 点 的 纯度 比 其 父 结 点 的 纯度 高 ， 则 不 考虑 分 支 
AG AGini (s, 1) 和 0 则 表示 子 结 点 的 纯度 比 其 父 结 点 的 纯度 低 ， 则 作为 该 变量 的 候 
选 分 支 水 平 ， 借 由 穷 举 搜索 所 有 可 能 的 分 支 水平 ，CART 算法 在 每 一 个 可 能 的 分 支 变 
量 中 会 选择 具有 最 大 化 纯度 的 分 支 水 平 作为 候选 分 支 依据 ， 再 经 由 比较 所 有 候选 分 支 
变量 中 具有 最 大 纯度 作为 结 点 的 分 支 。 

当 利用 训练 数据 表 完 成 决策 树 的 构建 ，CART 利用 成 本 复杂 性 的 修剪 方法 ， 以 降 
低 不 必要 的 分 支 。 
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4.3.5.2 Gini 系数 


Gini 系数 是 衡量 数据 集合 对 于 所 有 类 别 的 不 纯度 Gmpurity) (Breiman 等 ， 
1984) ， 如 式 所 示 ; 


AGini(D) =1-Sp? (4-16) 
ja 
各 属性 值 A, 下 数据 集合 的 不 纯度 Gini (A) 如 式 所 示 : 
元 2 A 2 r 2 EA 2 
aomita)=i-(%) (3) -EH am 
属性 4 的 总 数据 不 纯度 则 等 于 所 有 属性 值 分 割 下 的 期 望 平均 , 如 式 (4-18) 所 示 : 





Gini,(D) =Š Gini A) + È Gini A,)+---+ > Gini A,) (4-18) 


式 (4-18) 所 得 之 数值 即 为 以 属性 A 作为 分 支 属性 的 不 纯度 ， 不 纯度 越 小 表示 
该 属性 越 适合 作为 分 支 属 性 。 以 此 类 推 ， 可 计算 出 其 他 属性 作为 分 支 变 量 所 能 带 来 的 
纯度 ， 通 过 比较 即 可 找 出 最 适合 作为 分 支 的 属性 ， 如 式 〈4-19) 。 拥 有 最 大 幅度 减少 
不 纯度 的 属性 及 其 分 割 子 集合 ， 作 为 该 决策 树 的 分 支 属性 。 
AGini(A) = Gini(D) — Gini ,(D) (4-19 ) 
以 范例 【4.3 】 为 例 , 分别 根据 年 资 (A) 、 受 教育 程度 (B) 、 是 否 有 工作 经 验 (C) 
三 个 属性 计算 其 Gini 系数 如 下 。 
Gini(D) =1-(0.5) —(0.5) =0.5 





= Big Ae ie Bi Ps Bite De Ms Allis. 
Gini, ,(D) = oll Q SIT D Io. Q GY 0.473 





Giniseraa D) = 20 -0) -GV1 Z0- - GP] =0.286 





2 2 2 2 
Ging mene (D =É N-Ö -I+ -G)']=0417 


AGini(4-#) = Gini(D) — Ginis (D) = 0.5 — 0.473 = 0.027 
AGini EBEAALD) = Gini(D) — Giniasiaa(D)= 0.5 — 0.286 = 0.214 
AGini( 有 无 相关 经 验 )= Gini (D) — Gini z2 (D) = 0.5 — 0.286 = 0.083 
由 Gini 系数 可 知 ， 以 受 教育 程度 作为 分 支 依据 能 够 得 到 较 多 信息 。 


当 考 虑 二 元 划分 裂 时 ， 计 算 每 个 结果 分 区 的 不 纯度 的 加 权 和 。 例 如 ， 如 果 了 4 的 
二 元 划分 将 D 划分 成 D, 和 D,， 则 给 定 该 划分 ，D 的 基尼 指数 为 


= Plamo * Pp i) (4-20) 

对 于 每 个 属性 ， 考 虑 每 种 可 能 的 二 元 划分 。 对 于 离散 值 属性 ， 选 择 该 属性 产生 最 
小 基尼 指数 的 子 集 作为 它 的 分 裂 子 集 。 

对 于 连续 值 属性 ， 必 须 考虑 每 个 可 能 的 分 裂 点 。 其 策略 类 似 于 前 面 介绍 的 信息 
增益 所 使 用 的 策略 ， 其 中 将 每 对 〈 排 序列 后 的 ) 相 邻 值 的 中 点 作为 可 能 的 分 裂 点 。 对 
于 给 定 的 (连续 值 ) 属性 ， 选 择 产 生 最 小 基尼 指数 的 点 作为 该 属性 的 分 裂 点 。 注 意 ， 
对 于 4 的 可 能 分 裂 点 split poin, D, Æ D 中 满足 4<split poin WIARE, Mi D, Æ D 
中 满足 4>split poin 的 元 组 集合 。 

对 离散 或 连续 值 属性 4 的 二 元 划分 导致 的 不 纯度 降低 为 

AGini( A) = Gini(D) — Gini ,(D) (4-21) 

最 大 化 不 纯度 降低 〈 或 等 价 地 ， 具 有 最 小 基尼 指数 ) 的 属性 选 为 分 裂 属 性 。 该 属 
性 和 它 的 分 裂 子 集 〈 对 于 离散 值 的 分 裂 属 性 ) 或 分 裂 点 〈 对 于 连续 值 的 分 裂 属 性 ) 一 
起 形成 分 裂 准则 。 


Gini,(D) | 


43.5.3 ”使 用 基尼 系数 进行 决策 树 分 析 案 例 








【 例 4.6】 
表 4-11 是 顾客 数据 库 的 训练 数据 : 


表 4-11 顾客 数据 库 的 训练 元 组 


























RID age income student credit -rating | Class buys_computer 
1 youth high no fair no 
2 youth high no excellent no 
3 middle aged high no fair yes 
4 senior medium no fair yes 
5 senior low yes fair yes 
6 senior low yes excellent no 
F middle aged low yes excellent yes 

















177| 


1178 


大 数据 、 数 据 挖掘 与 智慧 运营 











(BR) 


Class buys_computer 





youth 





youth 





senior 





youth 





middle_aged 





middle_aged 











senior 





对 上 面 的 数据 以 基尼 系数 构建 CART 决策 树 。 

设 刀 是 表 4-11 的 训练 数据 ， 其 中 9 个 元 组 属于 类 buy_computer=yes， 而 其 余 5 
个 元 组 属于 类 buy_computer=no. X} D 中 元 组 创建 ( 根 〉 结 点 N。 首 先 使 用 基尼 指数 
Shit SE D 的 不 纯度 : 


2 2 
Gino) =1-(2) (3) =0.459 
14) \14 


为 了 找 出 DD 中 元 组 的 分 裂 准 则 ， 需 要 计算 每 个 属性 的 基尼 指数 。 从 属性 income 
开始 ， 并 考虑 每 个 可 能 的 分 裂 子 集 。 考 虑 子 集 {low，medium}。 这 将 导致 10 个 满足 
条 件 income E {low, medium} 的 元 组 在 分 区 D, 中 。D 中 的 其 余 4 个 元 组 将 指派 到 分 
区 D, 中 。 基 于 该 划分 计算 出 的 基尼 指数 值 为 

Gini, 


income el low, medium) 


(D) =" Ginio) + $ Gini(D,) 


101-7) E EA E ba, O (2). 
-a-(] (3) ia) -G ) 
=0.443 
=Gini, wat (D) 
类 似 地 , 用 其 余子 集 划 分 的 基尼 指数 值 是 : 0.458〈 子 集 {low, high} 和 {medium} ) 
和 0.450 ( 子 集 {medium, high} 和 {low}) 。 因 此 ， 属 性 income 的 最 好 二 元 划分 
在 {low, medium} (RÆ {high}) 上 ， 因 为 它 最 小 化 基尼 指数 。 评 估 属 性 age 得 到 
{young, senior} (R&A {middle_aged}) 为 age 的 最 好 划分 ， 具 有 基尼 指数 0.375; 
属性 student 和 credit rating 都 是 二 元 的 ， 分 别 具 有 基尼 指数 值 0.367 和 0.429。 
因此 ， 属 性 age 和 分 裂 子 集 {young，senior} 产生 最 小 的 基尼 指数 ， 不 纯度 降低 











0.459-0.357 =0.102。 二 元 划分 age E€ {young, senior} 导致 中 元 组 的 不 纯度 降低 最 大 ， 
并 返回 作为 分 裂 准 则 。 结 点 入 用 该 准则 标记 ， 从 它 生长 出 两 个 分 枝 ， 并 且 相 应 地 划 
分 元 组 。 


4.3.6 ”决策 树 中 的 剪 枝 问题 


决策 树 的 剪 枝 问题 本 质 上 综合 了 决策 树 的 泛 化 能 力 与 过 度 拟 合 问题 。 

使 用 决策 树 的 误差 大 致 分 为 两 种 ， 一 种 是 训练 误差 ， 即 训练 记录 上 误 分 类 样本 的 
比例 ， 另 一 种 是 泛 化 误差 ， 即 模型 在 未 知 记录 上 的 期 望 误差 。 在 建立 决策 树 时 ， 希 望 
分 类 模型 既 能 够 很 好 地 拟 合 训练 数据 ， 以 降低 训练 误差 ， 又 希望 分 类 模型 可 以 很 好 地 
拟 合 未 知 样本 ， 以 降低 泛 化 误差 。 在 生成 决策 树 时 ， 如 果 一 味 地 拟 合 训练 数据 以 降低 
训练 误差 ， 将 出 现 过 度 拟 合 的 现象 ， 这 种 过 度 拟 合 可 能 由 噪声 导致 ， 也 可 能 由 缺乏 代 
表 性 的 样本 导致 。 会 致使 分 类 模型 过 度 地 拟 合 了 训练 数据 ， 从 而 失去 泛 化 能 力 ， 造 成 
决策 树 性 能 的 降低 。 因 此 ， 训 练 数据 集 的 命中 率 与 测试 数据 集 的 命中 率 之 间 并 不 是 简 
单 的 正 相 关 性 ， 在 某 一 范围 内 两 者 为 正 相关 性 ， 但 由 于 过 度 拟 合 等 问题 ， 两 者 也 可 能 
存在 负 相 关 性 。 

引起 过 度 拟 合 的 原因 有 很 多 ， 比 较 普遍 认同 的 是 ， 模 型 越 复 杂 ， 出 现 过 度 拟 合 的 
概率 就 越 高 。 因 此 ， 在 处 理 决 策 树 归纳 中 的 过 度 拟 合 问题 时 ， 一 般 采 用 剪 掉 最 不 可 靠 
的 分 枝 的 办 法 。 常 用 的 剪 枝 方法 有 两 种 : 先 剪 枝 和 后 剪 枝 。 

(1) 先 剪 枝 是 一 种 提前 终止 规则 。 在 构造 决策 树 时 ， 可 以 使 用 信息 增益 、Gzzz 
系数 等 不 纯 性 度量 来 评估 划分 的 优 劣 ， 如 果 不 纯 性 度量 的 增益 低 于 某 个 确定 的 阔 值 时 
就 停止 扩展 叶子 结 点 。 一 旦 停止 ， 结 点 就 成 为 叶子 结 点， 此 时 该 叶子 结 点 或 标记 为 子 
集中 最 频繁 的 类 ， 或 者 持 有 子 集 数据 的 概率 分 布 。 然 而 ， 选 取 一 个 适当 的 阔 值 是 困难 
的 ， 高 阅 值 可 能 导致 决策 树 过 分 简化 ， 低 闪 值 可 能 会 使 得 决策 树 简 化 太 少 。 

(2) 后 剪 枝 ， 它 按照 自 底 而 上 的 方式 修剪 完全 增长 的 决策 树 。 有 两 种 修剪 方法 : 

@ 用 新 的 叶子 结 点 替换 子 树 ， 该 叶子 结 点 的 类 标号 由 子 树 的 记录 中 的 占 多 数 的 类 
确定 ; 

@@ 用 子 树 中 最 常 使 用 的 分 支 代替 子 树 。 

当 模 型 不 能 改进 时 ， 终 止 剪 枝 。 

CART 使 用 的 代价 复杂 度 算法 是 后 前 枝 的 一 个 实例 。 该 方法 把 决策 树 的 复杂 度 看 
作 树 中 叶子 结 点 的 个 数 和 决策 树 的 错误 率 的 函数 。 它 从 决策 树 的 底部 开始 ， 对 每 个 内 
部 结 点 N， 计 算 六 的 子 树 的 代价 复杂 度 和 该 子 树 剪 枝 〈 用 一 个 叶子 结 点 代替 该 子 树 ) 
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后 六 的 代价 复杂 度 。 比 较 两 个 值 。 如 果 剪 去 结 点 Y 的 子 树 导致 较 小 的 代价 复杂 度 ， 
则 剪 掉 该 子 树 ， 否则， 保留 该 子 树 。 

C4.5 算法 使 用 一 种 称 为 翡 观 剪 枝 的 方法 ， 它 类 似 于 代价 复杂 度 方法 ， 因 为 它 也 使 用 
错误 率 评估 来 决定 是 否 修剪 子 树 。 然 而 翡 观 剪 枝 不 需要 使 用 剪 枝 集 ， 仅 使 用 训练 集 估计 
错误 率 ， 这 样 的 做 法 对 数据 集 较 少时 比较 有 利 ， 但 基于 训练 集 评估 准确 率 或 者 是 错误 
率 一 般 过 于 乐观 ， 因 此 悲观 剪 枝 方法 通过 加 上 一 个 复杂 度 罚 项 来 调节 从 训练 集中 得 到 
的 错误 率 ， 从 而 抵消 乐观 估计 带 来 的 偏差 。 决 策 树 了 的 悲观 误差 估计 可 以 用 式 (4-22) 
计算 : 


le) + OA) eT) + OT) 

ying) N 

其 中 ,是 决策 树 的 叶子 结 点 数 ，n(t) 是 结 点 分 类 的 训练 记录 数 ，e(#) BA h 
被 误 分 类 的 记录 数 ，Q(t) 是 每 个 结 点 # 对 应 的 罚 项 。 

罚 项 与 模型 复杂 度 有 关 ， 模 型 复杂 度 越 高 ， 叶 子 结 点 个 数 越 多 ， 总 罚 项 就 越 大 。 
用 相同 的 训练 集 建立 决策 树 模 型 , 一 般 罚 项 设 定 得 越 大 , 得 到 的 决策 树 的 复杂 度 越 小 。 
因为 罚 项 小 ， 就 意味 着 ， 只 要 不 增加 很 大 的 训练 误差 ， 就 可 以 进行 剪 枝 。 





e(T)= (4-22) 


43.7 决策 树 在 SPSS 中 的 应 用 


本 节 简 要 介绍 决策 树 分 析 在 SPSS 软件 中 的 操作 流程 。 对 于 某 运 营 商 客户 流失 数 
据 ， 我 们 以 客户 是 否 流失 为 目标 变量 ， 通 过 决策 树 构建 分 类 预测 模型 ， 然 后 在 待 预测 
数据 中 运用 得 到 的 模型 ， 得 到 分 类 预测 结果 。 操 作 步 又 如 下 : 

(1) 在 菜单 上 依次 选择 “分 析 ” 一 “分 类 ”一 “ 树 ”， 如 图 4-13 所 示 。 

(2) 因 变 量 选择 目标 变量 “是 否 流失 ”， 自 变量 选择 其 他 字段 (注意 要 删除 明 
显 无 关 的 字段 ， 如 用 户 ID) ， 增 长 方法 选择 CHAD 算法 ， 如 图 4-14 所 示 。 

(3) 下 面 介绍 右 侧 各 个 选项 的 作用 。 在 “输出 ”选项 , 设置 决策 树 规则 保存 路 径 ， 
依次 勾 选 “生成 分 类 规则 ”和 “将 规则 导出 到 文件 ”， 单 击 “ 浏 览 ” 选 择 保存 路 径 ， 
如 图 4-15 所 示 。 

在 “条 件 ” 选 项 ， 单 击 “ 设 定 ” 可 以 设置 树 的 深度 ， 默 认 是 自动 选择 深度 ; 最 小 
个 案 数 的 意义 ， 以 父 结 点 100， 子 结 点 50 为 例 ， 只 有 满足 “ 当 父 结 点 包含 个 案 数 大 
于 等 于 100， 且 划分 的 子 结 点 包含 个 案 数 大 于 等 于 50” 这 个 条 件 ， 才 进行 分 支 ， 否 则 
停止 分 支 ， 如 图 4-16 所 示 。 
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4-14 字段 的 选择 


00--+002002+00000-2000002+000+*2000 
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图 4-15 规则 的 保存 图 4-16 树 的 深度 


在 “保存 ”选项 色 选 相关 属性 可 以 在 数据 页 面 生成 相关 数值 ， 如 图 4-17 所 示 : 
在 增长 方法 里 ， 可 以 选择 其 他 SPSS 集成 的 基础 上 算法 ， 如 穷 举 Chaid 算法 、 
CRT 算法 、QUEST 算法 , 如 图 4-18 所 示 。 





图 4-17 保存 相关 属性 图 4-18 选择 决策 树 算法 


(4) 设置 完毕 后 ， 单 击 确定 进行 模型 的 构建 ， 并 输出 规则 。 在 输出 页 面 可 以 看 
到 卡 方 决策 树 的 输出 图 形 ， 如 图 4-19 所 示 。 

在 数据 页 面 ， 可 以 看 到 相关 字段 的 输出 ， 解 释 如 下 : 

NodeID: 结 点 编号 ， 即 该 客户 落 在 树 中 哪个 结 点 ;Predicted Value: 预测 值 ; 
Predicted Probability: 预测 概率 ， 两 列 概率 分 别 代 表 预 测 为 0 或 1 的 概率 ， 如 图 420 所 示 。 
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图 4-19 决策 树 树 型 图 
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(5) 通过 构建 决策 树 模型 得 到 相应 的 规则 ， 在 待 分 析 数 据 里 就 可 以 运用 得 到 的 
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规则 进行 分 类 预测 。 先 将 待 分 析 数 据 导入 软件 ， 再 依次 选择 “文件 ”一 “新 建 ” 一 “ 语 


法 ”， 输 入 语句 : “INSERT FILE = 'C:\Users\Test\Desktop\chaid.sps'”， 单 引号 里 即 
前 面 保 存 的 规则 的 路 径 ， 如 图 4-21 所 示 。 





图 4-21 规则 的 运用 


运行 语法 后 ， 在 数据 页 面 得 到 输出 的 预测 结果 〈 即 客户 是 否 流失 ) ， 解 释 如 下 : 
nod: 该 客户 被 预测 到 哪个 结 点 ; pre: 预测 值 ，prb: 预测 为 0 或 1 的 概率 ， 如 
图 4-22 所 示 。 
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图 4-22 输出 结果 
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441 KNN 算 法 的 基本 原理 


K 近邻 法 也 就 是 KK-Nearest Neighbor 方法 ， 又 称 为 KNN 分 类 法 。 它 是 一 个 理论 
上 比较 成 熟 的 方法 ， 是 由 Cover 和 Hart (1967) 提出 的 。 此 算法 的 思想 简单 直观 ， 若 
一 个 样本 在 特征 空间 中 的 K 个 最 相似 (也 就 是 特征 空间 中 最 邻近 〉 的 样本 中 的 大 多 
数 都 属于 某 一 个 类 别 ， 则 此 样本 也 属于 这 个 类 别 。 此 方法 在 分 类 决策 上 仅 依据 最 邻近 
的 一 个 或 几 个 样本 的 类 别 来 最 终 决 定 待 分 样本 所 属 的 类 别 。K 近邻 法 是 在 已 知 类 别 的 
训练 样本 条 件 下 ， 按 最 近 距 离 原则 对 待 此 样本 分 类 。 

K 近邻 分 类 法 是 基于 类 比 学 习 ， 即 通过 将 给 定 的 检验 元 组 与 和 它 相似 的 训练 元 组 
进行 比较 来 学 习 。 训 练 元 组 用 n 个 属性 描述 。 每 个 元 组 代表 n 维 空间 的 一 个 点 。 这 样 ， 
所 有 的 训练 元 组 都 存放 在 n 维 模式 空间 中 。 当 给 定 一 个 未 知 元 组 时 ，K- 最 近邻 分 类 
法 (K-Nearest Neighbor Classifier) 搜索 模式 空间 ， 找 出 最 接近 未 知 元 组 的 天 个 训练 
元 组 。 这 天 个 训练 元 组 是 未 知 元 组 的 天 个 最 近邻 居 。 

“邻近 性 ”用 距离 度量 ， 如 欧 几 里 得 距离 。 两 个 点 或 元 组 人 = Q Xo 
xn) MXS Os Xy o Xa) 的 欧 几 里 得 距离 是 : 


dist(X,, x)= [XG =x) (4-23) 
i=l 


换言之 ， 对 于 每 个 数值 属性 ， 我 们 取 元 组 AX, 该 属性 对 应 值 的 差 ， 取 差 的 平 
方 和 ， 并 取 其 平方 根 。 通 常 ， 在 使 用 距离 公式 之 前 ， 我 们 把 每 个 属性 的 值 规范 化 。 这 
有 助 于 防止 具有 较 大 初始 值 域 的 属性 〈 如 收入 ) 比 具 有 较 小 初始 值 域 的 属性 〈 如 二 元 
属性 ) 的 权重 过 大 。 例 如 ， 可 以 通过 计算 式 〈4-24) ， 使 用 最 小 - 最 大 规范 化 把 数值 
属性 4 的 值 v 变 换 到 (0, 1] 区 间 中 的 v 


' v—min, 
V = 一 一 一 一 (4-24) 
max,- min, 
FL, min, max, 分 别 是 属性 4 的 最 小 值 和 最 大 值 。 前 面 还 从 数据 变换 角度 介 
绍 了 数据 规范 化 的 其 他 方法 。 
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对 于 KK- 最 近邻 分 类 , 未 知 元 组 被 指派 到 它 的 天 个 最 近邻 中 的 多 数 类 。 当 天 = 1 时 ， 
未 知 元 组 被 指派 到 模式 空间 中 最 接近 它 的 训练 元 组 所 在 的 类 。 最 近邻 分 类 也 可 以 用 于 
数值 预测 ， 即 返回 给 定 未 知 元 组 的 实数 值 预测 。 在 这 种 情况 下 ， 分 类 器 返回 未 知 元 组 
的 天 个 最 近邻 的 实数 值 标号 的 平均 值 。 

4-23 给 出 了 位 于 圆圈 中 心 的 数据 点 的 1- 最 近邻 、2- 最 近邻 和 3- 最 近邻 。 该 
数据 点 根据 其 近邻 的 类 标号 进行 分 类 。 如 果 数 据点 的 近邻 中 含有 多 个 类 标号 ， 则 将 该 
数据 点 指派 到 其 最 近邻 的 多 数 类 。 在 图 4-23 (a) 中 ， 数 据点 的 1- 最 近邻 是 一 个 负 例 ， 
因此 该 点 被 指派 到 负 类 。 如 果 最 近邻 是 三 个 ， 如 图 4-23 〈c) 所 示 ， 其 中 包括 两 个 正 
例 和 一 个 负 例 ， 根 据 多 数 表 决 方案 ， 该 点 被 指派 到 正 类 。 在 最 近邻 中 正 例 和 负 例 个 数 
相同 的 情况 下 《〈 见 图 4-23 (b) ) ， 可 随机 选择 一 个 类 标号 来 分 类 该 点 。 
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图 4-23 1- 最 近邻 、2- 最 近邻 和 3- 最 近邻 


44.2 KNN 算 法 流程 


算法 4.5 KNN 算法 





输入 : 训练 样本 集合 D= CX, Y), ERAH k; 

输出 : 更 新 类 标签 之 后 的 数据 集 D' 。 

Begin 

L For 每 个 测试 样 例 = (x', y’ ) Do; 

IL. 计算 = 和 每 个 样 例 (x，y) E DD 之 间 的 距离 qd Gx’, x’); 
II. 选择 离 2 最近 的 天 个 训练 样 例 的 集合 D. © D; 

IV. y'=argmax DY I=y), 


a Gy Jed. 


V.End For. 


一 旦 得 到 最 近邻 列表 ， 测 试 样 例 就 会 根据 最 近邻 中 的 多 数 类 进行 分 类 : 


ú = I(v=y, 
多 数 表决 “smax D 10s) 


其 中 , v 是 类 标号 ,yy 是 一 个 最 近邻 的 类 标号 ，XL， ) 是 指示 函数 ， 如 果 其 参数 为 
真 ， 则 返回 1， 否 则 返回 0。 


443 KNN 算 法 的 若干 问题 


a) “如 果 属 性 不 是 数值 的 而 是 标 称 的 (或 类 别 的 ) 如 颜色 ， 如 何 计算 距离 ? ” 

上 面 的 讨论 假定 用 来 描述 元 组 的 属性 都 是 数值 的 。 对 于 标 称 属性 ， 一 种 简单 的 方 
AERAR X AX, 中 对 应 属性 的 值 。 如 果 两 者 相同 Ga, TAX AX, WK 
色 ) ， 则 两 者 之 间 的 差 为 0。 如 果 两 者 不 同 G, TAX A, MAX, BA) ， 
则 两 者 之 间 的 差 为 1。 其 他 方法 可 能 采用 更 复杂 的 方案 (如 ， 对 蓝 色 和 白色 赋予 比 蓝 
色 和 黑色 更 大 的 差 值 ) 。 

D “缺失 值 怎么 办 2” 

通常 ， 如 果 元 组 互 或 五 在 给 定 属 性 4 上 的 值 缺失 ， 则 我 们 假定 取 最 大 的 可 能 差 。 
假设 每 个 属性 都 已 经 映射 到 [0，1] 区 间 。 对 于 标 称 属性 ， 如 果 4 的 一 个 或 两 个 对 应 
值 缺失 ， 则 我 们 取 差 值 为 1。 如 果 4 是 数值 属性 ， 并 且 在 元 组 总 和 马上 都 缺失 ， 则 
差 值 也 取 1。 如 果 只 有 一 个 值 缺 失 ， 而 另 一 个 存在 并 且 已 经 规范 化 〈 记 作 Y”) ， 则 
取 差 为 |1-v'| 和 |0-v'| 中 的 最 大 者 。 

G) “如 何 确定 近邻 数 大 的 值 ?” 

这 可 以 通过 实验 来 确定 。 从 知 K=1 开始 使 用 检验 集 估 计 分 类 器 的 错误 率 。 重 复 
该 过 程 ， 每 次 K 增值 1， 人 允许 增加 一 个 近邻 。 可 以 选取 产生 最 小 错误 率 的 K。 一 般 而 
言 ， 训 练 元 组 越 多 ，K 的 值 越 大 《使 分 类 和 数值 预测 决策 可 以 基于 存储 元 组 的 较 大 比 
例 )。 随 着 训练 元 组 数 趋向 于 无 穷 并 且 K=1, 错误 率 不 会 超过 贝 叶 斯 错误 率 的 两 倍 (后 
者 是 理论 最 小 错误 率 ) 。 如 果 K 也 趋向 于 无 穷 ， 则 错误 率 趋向 于 贝 叶 斯 错误 率 。 

(4) 最 近邻 分 类 法 使 用 基于 距离 的 比较 , 本 质 上 赋予 每 个 属性 相等 的 权重 。 因此， 
当 数 据 存在 噪声 或 不 相关 属性 时 ， 它 们 的 准确 率 可 能 受到 影响 。 然 而 ， 这 种 方法 已 经 
被 改进 ， 结 合 属性 加 权 和 噪声 数据 元 组 的 剪 枝 。 距 离 度量 的 选择 可 能 是 至 关 重 要 的 。 
也 可 以 使 用 曼哈顿 距离 或 其 他 距离 度量 。 

(5) 最 近邻 分 类 法 在 对 检验 元 组 分 类 时 可 能 非常 慢 。 如 果 D 是 有 |D| 个 元 组 的 
训练 数据 库 ， 而 K=1 则 对 一 个 给 定 的 检验 元 组 分 类 需要 O CD) 次 比较 。 通 过 预先 
排序 并 将 排序 后 的 元 组 安排 在 搜索 树 中 ， 比 较 次 数 可 以 降低 到 O(log|D|)。 并 行 实 
现 可 以 把 运行 时 间 降 低 为 常数 ， 即 O (1) ， 独 立 |D|。 
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444 ”KNN 分 类 器 的 特征 


最 近邻 分 类 器 的 特点 总 结 如 下 : 

(1) 最 近邻 分 类 属于 一 类 更 广泛 的 技术 ， 这 种 技术 被 称 为 基于 实例 的 学 习 ， 它 
使 用 具体 的 训练 实例 进行 预测 ， 而 不 必 维 护 源 自 数据 的 抽象 〈 或 模型 ) 。 基 于 实例 的 
学 习 算 法 需要 邻近 性 度量 来 确定 实例 间 的 相似 性 或 距离 ， 还 需要 分 类 函数 根据 测试 实 
例 与 其 他 实例 的 邻近 性 返回 测试 实例 的 预测 类 标号 。 

(2) 像 最 近邻 分 类 器 这 样 的 消极 学 习 方 法 不 需要 建立 模型 ， 然 而 分 类 测试 样 例 
的 开销 很 大 ， 因 为 需要 逐个 计算 测试 样 例 和 训练 样 例 之 间 的 相似 度 。 相 反 ， 积 极 学 习 
方法 通常 花费 大 量 计算 资源 来 建立 模型 ， 模 型 一 旦 建立 ， 分 类 测试 样 例 就 会 非常 快 。 

(3) 最 近邻 分 类 器 基于 局 部 信息 进行 预测 ， 而 决策 树 和 基于 规则 的 分 类 器 则 试 
图 找到 一 个 拟 合 整个 输入 空间 的 全 局 模型 。 正 是 因为 这 样 的 局 部 分 类 决策 ， 最 近邻 分 
类 器 (k 很 小 时 ) 对 噪声 非常 敏感 。 

(4) 最 近邻 分 类 器 可 以 生成 任意 形状 的 决策 边界 ， 这 样 的 决策 边界 与 决策 树 和 
基于 规则 的 分 类 器 通常 所 局 限 的 直线 决策 边界 相 比 ， 能 提供 更 加 灵活 的 模型 表示 。 最 
近邻 分 类 器 的 决策 边界 还 有 很 高 的 可 变性 ， 因 为 它们 依赖 于 训练 样 例 的 组 合 。 增 加 最 
近邻 的 数目 可 以 降低 这 种 可 变性 。 

(5) 除非 采用 适当 的 邻近 性 度量 和 数据 预 处 理 ， 否 则 最 近邻 分 类 器 可 能 做 出 错误 
的 预测 。 例 如 ， 我 们 想 根据 身高 〈 以 米 为 单位 ) 和 体重 (以 磅 为 单位 ) 等 属性 来 对 一 
和 群 人 分 类 。 属 性 高 度 的 可 变性 很 小 ， 从 1.50 米 到 1.85 米 ， 而 体重 范围 则 可 能 是 从 90 
磅 到 250 磅 。 如 果 不 考虑 属性 值 的 单位 ,那么 邻近 性 度 最 可 能 被 人 的 体重 差异 所 左右 。 


445 ”KNN 算 法 在 SPSS 中 的 应 用 


本 节 介 绍 KNN 算法 在 SPSS 中 的 应 用 ， 分 别 介 绍 两 个 案例 : 〈1) H KNN 算法 
预测 客户 是 否 流失 ; (2) 用 KNN 算法 填充 信用 等 级 的 缺失 值 。 下 面 介绍 相关 步骤 。 


4.4.5.1 用 KNN 算法 预测 用 户 是 否 流失 

现在 我 们 有 历史 的 客户 流失 数据 和 当月 或 未 来 的 客户 数据 ， 想 要 通过 历史 数据 预 
测 分 析 这 些 客户 是 否 会 流失 。KNN 的 方法 如 下 

(1) 对 于 历史 数据 ， 首 先 找 出 和 目标 变量 “是 否 流失 ”相关 性 最 大 的 若干 字段 ， 
用 于 算法 计算 距离 。 方 法 是 将 字符 串 字段 转换 为 数值 型 ， 再 利用 双 变 量 相关 求 出 相关 
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系数 。 如 图 4-24 所 示 。 

(2) 依次 选择 “数据 ”一 “合并 文件 ”一 “添加 个 案 ”， 将 历史 流失 客户 数据 
和 待 分 析 数 据 进 行 合 并 〈 待 分 析 数 据 “ 是 否 流 失 ” 字 段 未 知 ) 。 

G) 将 上 一 部 选 出 的 若干 编码 后 的 字段 进行 归 一 化 操作 《〈 此 处 我 们 选 出 的 字段 
是 网 龄 ， 当 月 ARPU， 当 月 MOU; 归 一 化 即将 每 个 字段 数值 除 以 该 字段 最 大 值 ) 。 

(4) 对 于 合并 后 的 数据 进行 KNN 分 析 。 依 次 选择 “分 析 ” 一 “分 类 ”一 “最 
近邻 元 素 ”， 设 置 目标 变量 和 特征 (特征 即 上 一 步 选 出 来 的 相关 系数 较 大 的 若干 字段 
归 一 化 后 的 值 )， 如 图 4-25 所 示 。 














ee 
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图 4-24 相关 系数 图 4-25 字段 设置 





“ 相 邻 元 素 ” 设 置 玉 值 ， 如 图 4-26 所 示 。 
保存 输出 结果 ， 如 图 4-27 所 示 。 








(om) nme, aam sa sn 
4-26 下 的 设置 图 4-27 保存 输出 
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设置 完毕 即 可 输出 KNN 预测 结果 。 
445.2 用 KNN 算法 填充 缺失 值 


(1) 现在 数据 中 信用 等 级 字段 有 少量 缺失 值 ， 用 KNN 算法 可 以 进行 分 析 得 到 
最 接近 的 预测 结果 。 首 先 将 相关 字符 串 字 段 重新 编码 为 数值 型 ， 便 于 双 变 量 相关 求解 
相关 系数 。 下 面 将 目标 变量 信用 等 级 重新 编码 为 数值 型 , 各 个 星 级 对 应 于 数值 0,1,2 等 ， 
如 图 4-28 所 示 。 
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图 4-28 编码 


(2) 通过 双 变量 相关 找 出 与 信用 等 级 编码 相关 系数 较 高 的 若干 字段 ， 进 行 归 一 
化 ， 然 后 按照 第 一 个 例子 的 步骤 即 可 完成 KNN 的 分 析 ， 得 到 信用 等 级 编码 的 预测 值 ， 
即 完成 了 默认 值 的 填充 。 
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451 贝 叶 斯 定理 


贝 叶 斯 定理 用 Thomas Bayes 的 名 字 命 名 。Thomas Bayes 是 一 位 不 墨守成规 的 英 
国 牧师 ， 是 18 世纪 概率 论 和 决策 论 的 早期 研究 者 。 设 是 数据 元 组 。 在 贝 叶 斯 的 术 
iH, XA SER” WA, Xn 个 属性 集 的 测量 值 描述 。 令 五 为 菜 种 假设 ， 如 
数据 元 组 革 属 于 某 个 特定 类 C。 对 于 分 类 问题 ， 希 望 确定 给 定 “ 证 据 ” 或 观测 数据 元 
AX, (i A ROLE PAX), RAZ, BEX MAMA, REHA X E 
于 类 C 的 概率 。 

P (HIX) 是 后 验 概率 (Posterior Probability) ， 或 在 条 件 工 下 ， 瑟 的 后 验 概率 。 
例如 ， 假 设 数据 元 组 是 界 于 分 别 由 属性 age 和 income 描述 的 顾客 ， 而 民 是 一 位 35 岁 
的 顾客 ， 其 收入 为 4 万 美元 。 令 五 为 某 种 假设 ， 如 顾客 将 购买 计算 机 。 则 己 〈 刀 | 如 
反映 当 我 们 知道 顾客 的 年 龄 和 收入 时 ， 顾 客人 将 购买 计算 机 的 概率 。 

相反 , P(H) 是 先 验 概率 (Prior Probability) , 或 甩 的 先 验 概率 。 对 于 我 们 的 例子 ， 
它 是 任意 给 定 顾客 将 购买 计算 机 的 概率 ， 而 不 管 他 们 的 年 龄 、 收 入 或 任何 其 他 信息 。 
后 验 概率 P (五 | 了 比 先 验 概率 P (H) 基于 更 多 的 信息 〈 如 顾客 的 信息 ) . P UD 
MAF Xo 

类 似 地 ，P (XH) RAE A TF, XM OR. he, CE CAA AX K 
购买 计算 机 ， 该 顾客 是 35 岁 并 且 收 入 为 4 万 美元 的 概率 。 

P X) 是 对 的 先 验 概率 。 使 用 我 们 的 例子 ， 它 是 顾客 集合 中 的 年 龄 为 35 岁 并 且 
收入 为 4 万 美元 的 概率 。 

如 何 估计 这 些 概 率 ? 正如 下 面 将 看 到 的 , POO . P (H) MP XJ 可 以 由 给 
定 的 数据 估计 。 贝 叶 斯 定理 是 有 用 的 ， 它 提供 了 一 种 由 P (XW) 、P CD 和 P (XID 
计算 后 验 概率 P( 玉 |X) 的 方法 。 贝 叶 斯 定理 是 


rao ED 


下 面 ， 我 们 将 讲解 如 何在 朴素 贝 叶 斯 分 类 中 使 用 贝 叶 斯 定理 。 


(4-25) 
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452 ”朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 法 是 贝 叶 斯 分 类 法 中 最 简单 有 效 、 实 际 使 用 较 成 功 的 一 种 分 类 
器 ， 其 性 能 可 与 神经 网 络 、 决 策 树 分 类 器 相 比 ， 且 有 时 会 优 于 其 他 分 类 器 。 朴 素 贝 叶 
斯 分 类 器 的 特征 是 假定 每 个 属性 的 取 值 对 给 定 类 的 影响 独立 于 其 他 属性 的 取 值 ， 即 给 
定 类 变量 的 条 件 下 各 个 属性 变量 之 间 条 件 独立 。 


4.5.2.1 条 件 独立 性 


在 深入 研究 朴素 贝 叶 斯 分 类 法 如 何 工 作 的 细节 之 前 ， 让 我 们 先 介 绍 条 件 独立 概 
Bo WX. 了 和 Z 表 示 三 个 随机 变量 的 集合 。 给 定 Z、 革 条 件 独立 于 了， 如 果 下 面 的 
条 件 成 立 : 

PIXY, Z) =P (XZ) (4-26) 

条 件 独立 的 一 个 例子 是 一 个 人 的 手臂 长 短 和 他 的 阅读 能 力 之 间 的 关系 。 你 可 能 会 
发 现 手臂 较 长 的 人 阅读 能 力也 较 强 。 这 种 关系 可 以 用 另 一 个 因素 解释 ， 那 就 是 年 龄 。 
小 孩子 的 手臂 往往 比较 短 ， 也 不 具备 成 人 的 阅读 能 力 。 如 果 年 龄 一 定 ， 则 观察 到 的 手 
臂 长 度 和 阅读 能 力 之 间 的 关系 就 消失 了 。 因 此 ， 我 们 可 以 得 出 结论 ， 在 年 龄 一 定时 ， 
手臂 长 度 和 阅读 能 力 二 者 条 件 独立 。 

了 革 和 了 之 间 的 条 件 独 立 也 可 以 写成 类 似 公式 (4-27) 的 形式 : 

PUX,Y,Z) _ P(X fs PEZ 
P(Z) PY,Z)  P(Z) (4-27) 
= P(X | Z)x P(Y |Z) 


P(X, Y|Z)= 





45.2.2 ”朴素 贝 叶 斯 分 类 的 工作 过 程 


朴素 贝 叶 斯 分 类 的 工作 过 程 如 下 : 

A) B D 是 训练 元 组 和 它们 相关 联 的 类 标号 的 集合 。 每 个 数据 样本 用 n 维特 征 
lal it X={x,, Xj, +, x,} 表示 ， 描 述 了 对 n 个 属性 样本 4,，4,，…，4, 对 元 组 的 n 
个 度量 。 

(2) BA MBE ey Cy s Cm PARAM BHA CRAKS) ， 分 类 
BHAT X BF RARER (REX PE) 的 类 。 即 ， 朴 素 贝 叶 斯 分 类 将 未 
知 的 样本 分 配给 类 C， 当 且 仅 当 忆 (CLO =P (CID, 1<j<m, j+i 这 样 ， 最 


大 化 的 P (CPO 对 应 的 类 C 称 为 最 大 的 后 验 假定 ， 而 PC pee 


G) HFP V 对 于 所 有 类 为 常数 ， 只 需要 P(XIC,) POC) 最 大 即 可 。 若 
类 的 先 验 概率 未 知 , 则 通常 假定 着 这 些 类 是 等 概率 的 , BP CC) =P CC) =P Cp) > 
因此 问题 就 转换 为 对 P(XIC,) 的 最 大 化 。 类 的 先 验 概率 可 以 用 P (CG) C, N/D] 
JE IC, ol 是 DD 中 CC; 类 的 元 组 个 数 。 
(4) 具有 很 多 属性 的 数据 集 ， WAP ACO 开销 会 变 得 很 大 ， 降 低 计算 的 开销 ， 
朴素 贝 叶 斯 分 类 法 在 估计 类 条 件 概率 时 假设 属性 之 间 条 件 独立 ， 即 
P(X |C P(x; |C PIC) PIC) (4-28) 
(5) 为 了 预测 工 的 类 标号 ， 对 每 个 类 Co WEEP AXC PO) ， 该 分 类 法 预 
测 元 组 对 的 类 为 C， 当 且 仅 当 
P(XIC )P(C )>P(XIC)PC,), 1<j<m,j#i (4-29) 
被 预测 的 类 标号 就 是 使 P AC) P (CO) 最 大 的 Co 
朴素 贝 叶 斯 分 类 法 使 用 两 种 方法 估计 连续 属性 的 类 条 件 概 率 。 一 种 方法 是 把 每 一 
个 连续 属性 离散 化 ， 然 后 用 相应 的 离散 区 间 替 换 连 续 属性 值 。 另 一 种 方法 是 假设 连续 
变量 服从 某 种 概率 分 布 ， 然 后 使 用 训练 数据 估计 分 布 的 参数 。 高 斯 分 布 通常 被 用 来 表 
示 连 续 属 性 的 类 条 件 概率 分 布 。 


4.5.2.3 ”朴素 贝 叶 斯 分 类 的 特征 


朴素 贝 叶 斯 分 类 方法 有 坚实 的 数学 基础 ， 算 法 相对 来 说 简单 易 实现 ， 所 需 估计 的 
参数 少 ， 对 缺失 的 数据 不 敏感 ， 对 孤立 的 噪声 点 和 无 关 属性 有 稳定 的 分 类 性 能 。 理 论 
上 讲 ， 与 其 他 所 有 分 类 算法 相 比 ， 贝 叶 斯 分 类 法 有 最 小 的 错误 率 。 然 而 ， 实 践 中 并 非 
总 是 如 此 。 这 是 由 于 对 其 使 用 的 假定 〈 如 类 条 件 独立 性 ) 的 不 确定 性 ， 以 及 缺乏 可 用 
的 概率 数据 造成 的 。 


45.2.4 朴素 贝 叶 斯 分 类 实例 分 析 








【 例 4.7]】 


使 用 例 4.4 的 数据 ， 和 希望 使 用 朴素 贝 叶 斯 分 类 来 预测 未 知 元 组 的 类 标号 。Ci 对 应 
于 buys_computer=yes , C, 对 应 buys_computer=no, 希望 分 类 的 元 组 为 全 ( age=youth, 
income=medium, student=yes, credit_rating=fair) > 

BERKUP (XC) P(C,) , Fl, 2 每 个 类 的 先 验 概率 也 (C;) 可 以 根据 训 
练 元 组 计算 。 
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为 了 计算 P(XIC;) ， 下 面 计算 条 件 概率 : 


P(age = youth | buys _ computer = yes) -< =0.222 
3 
P(age = youth | buys _ computer = no) = 357 0.600 
R : 4 
P(income = medium | buys _ computer = yes) = 6 = 0.444 
2 
P(income = medium | buys _ computer = no) = 3 = 0.400 
P(student = yes | buys _ computer = yes) = 5 =0.667 
P(student = yes | buys _ computer = no) = : = 0.200 
P(credit _ rating = fair | buys _ computer = yes) = S =0.667 
P(credit _ rating = fair | buys _ computer = no) = : =0.400 


使 用 上 面 的 概率 得 到 : 


P(X|buys_computer = yes) = P(age = youth | buys _ computer = yes) 
xP(income = medium | buys _ computer = yes) 
xP(student = yes | buys _ computer = yes) 
xP(credit _ rating = fair | buys _ computer = yes) 
= 0.222 x 0.444 x 0.667 x 0.667 
= 0.044 
类 似 地 
P(X | buys _ computer = no) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019 
计算 
P(X | buys _ computer = yes) x P(buys _ computer = yes) = 0.044 x 0.643=0.028 
P(X | buys _ computer = no) x P(buys _ computer = no) = 0.019 x 0.357=0.007 
因此 ， 对 于 元 组 下， 朴素 贝 叶 斯 分 类 器 预测 X KH] A buys_computer=yes 











4.5.3 ” 贝 叶 斯 网 络 


4.5.3.1 贝 叶 斯 网 络 原理 


朴素 贝 叶 斯 分 类 假定 样本 的 属性 取 值 相互 独立 ， 然 而 ， 在 实际 应 用 中 ， 变 量 之 间 
可 能 存在 依赖 关系 。 贝 叶 斯 信念 网 络 (Bayesian Belief Network, BBN) 说 明 联合 条 
件 的 概率 分 布 , 允许 在 变量 的 子 集 之 间 定 义 类 条 件 , 并 提供 一 种 因果 关系 的 网 络 图 形 ， 
又 称 信念 网 络 、 贝 叶 斯 网 络 或 概念 网 络 。 其 作为 一 种 不 确定 性 的 因果 推理 模型 ， 在 信 
息 检 索 、 医 疗 诊断 、 电 子 技术 与 工程 等 诸多 方面 运用 广泛 。 

信念 网 络 的 优 缺 点 : 如 果 其 网 络 结构 和 数值 是 给 定 的 ， 那 么 可 以 直接 计算 ， 但 数 
据 隐藏 ， 只 知道 其 中 的 依存 关系 ， 所 以 需要 条 件 概率 的 估算 。 贝 叶 斯 网 络 的 数据 结构 
可 能 是 未 知 的 ， 此 时 需要 根据 已 知 数据 启发 式 学习 贝 叶 斯 网 络 结构 。 


45.3.2 ”模型 表示 


贝 叶 斯 信念 网 络 ， 简 称 贝 叶 斯 网 络 ， 用 图 形 表示 一 组 随机 变量 之 间 的 概率 关系 。 
贝 叶 斯 网 络 有 两 个 主要 成 分 。 

(1) 一 个 有 向 无 环 图 (dag) ， 表 示 变 量 之 间 的 依赖 关系 。 

(2) 一 个 概率 表 ， 把 各 结 点 和 它 的 直接 父 结 点 关联 起 来 。 

考虑 三 个 随机 变量 A、B 和 C， 其 中 A 和 了 B 相互 独立 ， 并 且 都 直接 影响 第 三 个 
变量 C。 三 个 变量 之 间 的 关系 可 以 用 图 4-29 (a) 中 的 有 向 无 环 图 概括 。 图 中 每 个 结 
点 表示 一 个 变量 ， 每 条 弧 表 示 两 个 变量 之 间 的 依赖 关系 。 如 果 从 x 到 y 有 一 条 有 向 
弧 ， 则 x 是 y 的 父母 ,，y 是 x 的 子女 。 另 外 ， 如 果 网 络 中 存在 一 条 从 半 到 Z 的 有 向 路 
径 ， 则 了 是 Z 的 祖先 ， 而 Z 是 的 后 代 。 例如， 在 图 4-29 (b) 中 ，A 是 DD 的 后 代 ， 
D 是 B 的 祖先 ， 而且 B 和 DD 都 不 是 A 的 后 代 结 点 。 贝 叶 斯 网 络 的 一 个 重要 性 质 表 述 
如 下 : 

ER ”条 件 独立 贝 叶 斯 网 络 中 的 一 个 结 点 ， 如 果 它 的 父母 结 点 已 知 ， 则 它 条 件 
独立 于 它 的 所 有 非 后 代 结 点 。 

图 4-29 (b) 中 , EC, A 条 件 独立 于 B 和 了 D, 因为 B 和 D 都 是 A 的 非 后 代 结 点 。 
朴素 贝 叶 斯 分 类 器 中 的 条 件 独立 假设 也 可 以 用 贝 叶 斯 网 络 来 表示 , 如 图 4-29(c) 所 示 ， 
其 中 7 RAR, Xo X vo Xy 是 属性 集 。 

除了 网 络 拓扑 结构 要 求 的 条 件 独立 性 外 ， 每 个 结 点 还 关联 一 个 概率 表 。 

(1) WRARX RARE A, WRPRAS ERP OD 。 
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(2) 如 果 结 点 蕊 只 有 一 个 父母 结 点 下， 则 表 中 包含 条 件 概率 己 OXY © 
(3) WRARX ASTRA (Yo o eo Yh. 则 表 中 包含 条 件 概率 己 XY, 


EA A EA 
C od 
O y `~ EOO- 


(b 
图 4-29 关系 图 


4.5.3.3” 贝 叶 斯 网 络 实例 分 析 
图 4-30 是 贝 叶 斯 网 络 的 一 个 例子 ， 对 心脏 病 或 心口 痛 患 者 建 模 。 





































































































E=Yes D> BE 
Hb=Yes 
0.2 
HD=Yes os 
E=Yes 0.25 - 
DD= 健 康 : 
E=Yes 
= 不 健康 0.45 
E=No 
-健康 | 055 
= CP=Yes 
E=No 0.75 
D= 不 健康 | ` 0.8 
BE 高 
HD=Yes 0.85 04 
HD=No 0.2 
0.1 
图 4-30 贝 叶 斯 网 络 
(1) 分 析 


假设 图 中 每 个 变量 都 是 二 值 的 。 心 脏 病 结 点 HD) 的 父母 结 点 对 应 影响 该 疾病 
的 危险 因素 ， 如 锻炼 CED 和 饮食 D) 等 。 心 脏 病 结 点 的 子 结 点 对 应 该 病 的 症状 ， 


BAB 分 类 分 析 


如 胸痛 CCP) 和 高 血压 (BP) 等 。 如 图 4-30 所 示 ， 心 口 痛 (Hb) 可 能 源 于 不 健康 的 
饮食 ， 同 时 又 可 能 导致 胸痛 。 

影响 疾病 的 危险 因素 对 应 的 结 点 只 包含 先 验 概率 ， 而 心脏 病 、 心 口 痛 以 及 它们 的 
相应 症状 所 对 应 的 结 点 都 包含 条 件 概率 。 为 了 节省 空间 ， 图 4-30 中 省 略 了 一 些 概率 。 
注意 P (X=) =1-P Xx) , P OSF |P) =1-P (X=x|7) ,其 中 x 表示 和 x 相反 的 结果 。 
因此 ， 省 略 的 概率 可 以 很 容易 求 得 。 例 如 ， 条 件 概率 : 


P(x EF = no | HEH = no AKT = he AB) 
=1- P( 心 脏 病 = yes| HEH = no, 饮 食 = 健 康 ) 
=1-0.55 
=0.45 
(2) 建 模 
贝 叶 斯 网 络 的 建 模 包括 两 个 步骤 : 〈1) 创建 网 络 结构 ; 〈2) 估计 每 一 个 结 点 的 
概率 表 中 的 概率 值 。W 网 络 拓扑 结构 可 以 通过 对 主观 的 领域 专家 知识 编码 获得 。 算 
法 给 出 了 归纳 贝 叶 斯 网 络 拓扑 结构 的 一 个 系统 的 过 程 。 


算法 4.6” 贝 叶 斯 网 络 拓扑 结构 





输入 : 变量 的 全 序 TG AG OD; abt 

输出 : 贝 叶 斯 网 络 拓扑 结构 ; 

Begin 

LFor j=1 to d Do; 

开 令 五 表示 工 中 第 7 个 次 序 最 高 的 变量 ; 

M.G (Xp) =o: Xray > Xren) 表示 排 在 丈 w 前 面 的 变量 的 集合 ; 
IV. An Xp) 中 去 掉 对 总 没有 影响 的 变量 〈 使 用 先 验 知识 ) ; 

VEX pMn (Xp) ) 中 3 的 变量 之 间 画 弧 ; 

VI.End for。 


考虑 图 4-30 中 的 变量 ， 执 行 步骤 1 后 ， 设 变量 次 序 为 CE, D, HD, Hb, CP, 
BP) 。 从 变量 D 开始 ， 经 过 步 又 2 到 步骤 7， 我 们 得 到 如 下 条 件 概率 : 

P (DIED 化 简 为 P D) ; 

P (ADIE, D) 不 能 化 简 ; 

P (Hb|HD, E, D) 化 简 为 P (HbID) ; 
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P (CP|Hb, HD, E, D) 化 简 为 P (CP|Hb, HD) ; 

P (BP\CP, Hb, HD, E, D) 化 简 为 P (BP|HD) 。 

基于 以 上 条 件 概率 , 创建 结 点 之 间 的 弧 CE, HD), (D, HD), (D, Hb), (HD, 
CP), (Hb, CP), (HD, BP) 。 这 些 弧 构成 了 图 4-30 的 网 络 结构 。 

算法 保证 生成 的 拓扑 结构 不 包含 环 ， 这 一 点 也 很 容易 证 明 。 如 果 存 在 环 ， 那 么 
至 少 有 一 条 弧 从 低 序 结 点 指向 高 序 结 点 ， 并 且 至 少 存 在 另 一 条 弧 从 高 序 结 点 指向 
低 序 结 点 。 由 于 算法 不 允许 从 低 序 结 点 到 高 序 结 点 的 弧 存 在 ， 因 此 拓扑 结构 中 不 存 
在 环 。 

然而 , 如 果 我 们 对 变量 采用 不 同 的 排序 方案 , 得 到 的 网 络 拓 扑 结 构 可 能 会 有 变化 。 
某 些 拓扑 结构 可 能 质量 很 差 ， 因 为 它 在 不 同 的 结 点 对 之 间 产 生 了 很 多 条 弧 。 从 理论 上 
讲 ， 可 能 需要 检查 所 有 d! 种 可 能 的 排序 才能 确定 最 佳 的 拓扑 结构 ， 这 是 一 项 计算 开 
销 很 大 的 任务 。 蔡 代 的 方法 是 把 变量 分 为 原因 变量 和 结果 变量 ， 然 后 从 各 原因 变量 向 
其 对 应 的 结果 变量 画 弧 。 这 种 方法 简化 了 贝 叶 斯 网 络 结构 的 建立 。 

一 旦 找到 了 合适 的 拓扑 结构 ， 与 各 结 点 关联 的 概率 表 就 确定 了 。 对 这 些 概率 的 估 
计 比 较 容 易 ， 与 朴素 贝 叶 斯 分 类 器 中 所 用 的 方法 类 似 。 

(3) 使 用 BBN 进行 推理 举例 

假设 我 们 对 使 用 图 4-30 中 的 BBN 来 诊断 一 个 人 是 否 患 有 心脏 病 感 兴趣 ， 下 面 六 
释 在 不 同 的 情况 下 如 何 做 出 诊断 。 

情况 一 : 没有 先 验 信息 

在 没有 任何 先 验 信息 的 情况 下 , 可 以 通过 计算 先 验 概率 P(HD=yes) 和 P(HD=no) 
来 确定 一 个 人 是 否 可 能 患 心脏 病 。 为 了 表述 方便 , Ba E ={yes, no} 表示 锻炼 的 两 个 值 ， 
BE ={ 健康 ， 不 健康 } 表示 饮食 的 两 个 值 。 


P(HD = yes) = >>, P(AHD= yes|E=Q, D=P)P(E=a, D=p) 
a p 
=} P(AD = yes| E=a, D=P)RE=0)R(D=p) 
a p 


= 0.25% 0.70.25 + 0.45 x 0.7 x 0.75 + 0.55 x 0.3x 0.25 +0.75 x 0.3 0.75 
=0.49 
因为 P (HD=no) =1-P (HD=yes) =0.51， 所 以 此 人 不 得 心脏 病 的 概率 略 大 一 些 。 
情况 二 : 高 血压 
如 果 一 个 人 有 高 血压 ， 可 以 通过 比较 后 验 概率 已 CED=yes|BP= 高 ) 和 P 
(HD=no|BP= 高 ) 来 诊断 他 是 否 患 有 心脏 病 。 为 此 ， 我 们 必须 先 计 算 P (BP= 高 ) : 


BAB 分 类 分 析 


P(BP =) => P(BP =% | HD = y)P(HD = 7) 
= 0.85 x 0.49 + 0.25 x 0.51=0.5185 
其 中 y E {yes，nol 。 因 此 ， 此 人 患 心脏 病 的 后 验 概率 是 : 


P(BP = Ñ | HD = yes) P(HD =yes) 
P(BP = 高) 





P(HD=yes|BP= 高 )= 


_0.85x0.49 _ 9 g033 
0.5185 
同 理 ，P (HD=no|BP= 高 ) =1- 0.8033=0.1967。 所 以 ， 当 一 个 人 有 高 血压 时 他 患 


心脏 病 的 概率 就 增加 了 。 








4.5.3.4 BBN 的 特点 


下 面 是 BBN 模型 的 一 般 特 点 。 

(1) BBN 提供 了 一 种 用 图 形 模型 来 捕获 特定 领域 的 先 验 知识 的 方法 。 网 络 还 可 
以 用 来 对 变量 间 的 因果 依赖 关系 进行 编码 。 

(2) 构造 网 络 可 能 既 费时 又 费力 。 然 而 一 旦 网 络 结构 确定 下 来 ， 添 加 新 变量 就 
变 得 十 分 容易 。 

(3) 贝 叶 斯 网 络 很 适合 处 理 不 完整 的 数据 。 对 有 属性 遗漏 的 实例 可 以 通过 对 该 
属性 的 所 有 可 能 取 值 的 概率 求 和 或 求 积 分 来 加 以 处 理 。 

(4) 因为 数据 和 先 验 知识 以 概率 的 方式 结合 起 来 了 ， 所 以 该 方法 对 模型 的 过 分 
拟 合 问 题 是 非常 具有 和 鲁 棒 性 的 。 


人 工 神经 网 络 CANN) 的 研究 是 由 试图 模拟 生物 神经 系统 而 激发 的 。 人 类 的 大 
脑 主要 由 称 为 神经 元 (Neuron) 的 神经 细胞 组 成 ， 神 经 元 通过 叫 作 轴 突 Axon) 的 
纤维 丝 连 在 一 起 。 当 神经 元 受到 刺激 时 ， 神 经 脉冲 通过 轴 突 从 一 个 神经 元 传 到 另 一 个 
神经 元 。 一 个 神经 元 通过 树 突 (Dendrite) 连接 到 其 他 神经 元 的 轴 突 ， 树 突 是 神经 元 
细胞 体 的 延伸 物 。 树 突 和 轴 突 的 连接 点 叫 作 神经 键 (Synapse) 。 神 经 学 家 发 现 ， 人 
的 大 脑 通过 在 同一 个 脉冲 反复 刺激 下 改变 神经 元 之 间 的 神经 键 连接 强度 来 进行 学 习 。 

类 似 于 人 脑 的 结构 ，ANN 由 一 组 相互 连接 的 结 点 和 有 向 链 构成 。 本 节 将 分 析 一 
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系列 ANN 模型 ， 从 介绍 最 简单 的 模型 一 一 感知 器 (Perceptron) 开始 ， 看 看 如 何 训练 
这 种 模型 来 解决 分 类 问题 。 


4.6.1 感知 器 


考虑 图 4-31 中 的 图 表 。 上 边 的 表 显 示 一 个 数据 集 ， 包 含 三 个 布尔 变量 (x, X 
x) 和 一 个 输出 变量 y， 当 三 个 输入 中 至 少 有 两 个 是 0 时, y 取 -1; 而 至 少 有 两 个 大 
于 0 时 , y 取 1。 
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图 4-31 使 用 感知 器 模拟 一 个 布尔 函数 


图 4-31 展示 了 一 个 简单 的 神经 网 络 结构 一 一 感知 器 。 感 知 器 包含 两 种 结 点 : JL 
个 输入 结 点 ， 用 来 表示 输入 属性 ， 一 个 输出 结 点 ， 用 来 提供 模型 输出 。 神 经 网 络 结构 
中 的 结 点 通常 叫 作 神 经 元 或 单元 。 在 感知 器 中 ， 每 个 输入 结 点 都 通过 一 个 加 权 的 链 连 
接 到 输出 结 点 。 这 个 加 权 的 链 用 来 模拟 神经 元 间 神 经 键 连接 的 强度 。 像 生物 神经 系统 
一 样 ， 训 练 一 个 感知 器 模型 就 相当 于 不 断 调整 链 的 权 值 ， 直 到 能 拟 合 训练 数据 的 输入 
输出 关系 为 止 。 
感知 器 对 输入 加 权 求 和 ， 再 减 去 偏 置 因子 tf， 然 后 考察 结果 的 符号 ， 得 到 输出 值 
了 。 图 4-31 中 的 模型 有 三 个 输入 结 点 ， 各 结 点 到 输出 结 点 的 权 值 都 等 于 0.3， 偏 置 因 
子 != 0.4 。 模 型 的 输出 计算 公式 如 下 : 
a |1 , 4 0.3x,+0.3x, + 0.3x, 一 0.4>0 
af 如 果 03x+03m +0.3x, -0.4 <0 
例如 , WR x=1, x,=2, 14-3, 那么 了 =+1, AW 0.3x,+0.3x,+0.3x,-0.4 LIEN. Bb, 
MR x=0, x=, 1-0, MAI=1, AAMMAMA BATA Th. 
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注意 感知 器 的 输入 结 点 和 输出 结 点 之 间 的 区 别 。 输 入 结 点 简单 地 把 接收 到 的 值 传 
送 给 输出 链 ， 而 不 做 任何 转换 。 输 出 结 点 则 是 一 个 数学 装置 ， 计 算 输 入 的 加 权 和 ， 减 
去 偏 置 项 ， 然 后 根据 结果 的 符号 产生 输出 。 更 具体 的 ， 感 知 器 模型 的 输出 可 以 用 如 下 
数学 方式 表示 : 

J =sign(w,x, +W Xa $7 + WN + Wx t) (4-30) 

E, w, ws =s w REE BUA, Tx, x =e x 是 输入 属性 值 。 符 号 
函数 ， 作 为 输出 神经 元 的 激活 函数 (Activation Function) ， 当 参数 为 正 时 输出 +1, 参 
数 为 负 时 输出 -1。 感 知 器 模型 可 以 写成 下 面 更 简洁 的 形式 : 

p=sign(Wwaxa +W, Xa t+ WA + Wor) rere 
= sign(w- x) 


其 中 ，wo=-t，xo=1，w*x 是 权 值 向 量 w 和 输入 属性 向 量 x 的 点 积 。 


462 多重 人 工 神经 网 络 


4.6.2.1 多 重 人 工 神经 网 络 介绍 


人 工 神 经 网 络 结构 比 感知 器 模型 更 复杂 。 这 些 额 外 的 复杂 性 来 源 于 多 个 方面 。 

(1) 网 络 的 输入 层 和 输出 层 之 间 可 能 包含 多 个 中 间 层 ， 这 些 中 间 层 叫 作 隐藏 层 
(Hidden Layer) ， 隐 藏 层 中 的 结 点 称 为 隐藏 结 点 〈Hidden Node) 。 这 种 结构 称 为 多 
层 神 经 网 络 〈 见 图 4-32) 。 在 前 馈 (Feed-Forward) 神经 网 络 中 ， 每 一 层 的 结 点 仅 和 
下 一 层 的 结 点 相连 。 感 知 器 就 是 一 个 单 层 的 前 馈 神 经 网 络 ， 因 为 它 只 有 一 个 结 点 层 - 
输出 层 来 进行 复杂 的 数学 运算 。 在 递归 (Recurrent) 神经 网 络 中 ， 人 允许 同一 层 结 点 相 
连 或 一 层 的 结 点 连 到 前 面 各 层 中 的 结 点 。 





输入 层 


隐藏 层 








输出 层 

















图 4-32 多 层 前 馈 神经 网 络 
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(2) 除了 符号 函数 外 ， 网 络 还 可 以 使 用 其 他 激活 函数 ， 如 图 4-33 所 示 的 线性 函 
数 、S 形 CERNE) 函数 、 双 曲 正切 函数 等 。 这 些 激活 函数 允许 隐藏 结 点 和 输出 结 
点 的 输出 值 与 输入 参数 呈 非 线性 关系 。 



































1 1 
o.s} 0.5 
0 0 
-0.5L -0.5 
A 05.0 os 1 I 0 oO 0 1 
线性 函数 S 形 函数 
1 1 
05 05 
0 0 
-0.5 -0.5} 
15.005 1 #«-1 05 0 05 l 
双 曲 正切 函数 符号 函数 
图 4-33 ”激活 函数 


4.6.2.2 ”多 层 前 馈 神 经 网 络 


后 向 传播 算法 在 多 层 前 馈 神 经 网 络 上 学 习 。 它 迭代 地 学 习 用 于 元 组 类 标号 预测 的 
一 组 权重 。 多 层 前 馈 (Multilayer Feed-Forward) 神经 网 络 由 一 个 输入 层 、 一 个 或 多 
个 隐藏 层 和 一 个 输出 层 组 成 。 多 层 前 馈 网 络 的 例子 如 图 4-34 所 示 。 


隐藏 层 输出 层 


输入 层 











4-34 多 层 前 馈 网 络 
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每 层 由 一 些 单元 组 成 。 网 络 的 输入 对 应 对 每 个 训练 元 组 的 观测 属性 。 输 入 同时 提 
供给 构成 输入 层 的 单元 。 这 些 输入 通过 输入 层 ， 然 后 加 权 同 时 地 提供 给 称 作 隐 藏 层 的 
“类 神经 元 的 ”第 二 层 。 该 隐藏 层 单 元 的 输出 可 以 输入 到 另 一 个 隐藏 层 ， 诸 如 此 类 。 
隐藏 层 的 数量 是 任意 的 ， 尽 管 实践 中 通常 只 用 一 层 。 最 后 一 个 隐藏 层 的 权重 输出 作为 
构成 输出 层 的 单元 的 输入 。 输 出 层 发 布 给 定 元 组 的 网 络 预测 。 

输入 层 的 单元 称 作 输入 单元 。 隐 藏 层 和 输出 层 的 单元 ， 由 于 其 源 自生 物 学 基础 ， 
有 时 称 作 神经 结 点 CNeurodes) ， 或 称 输出 单元 。 如 图 4-34 所 示 的 多 层 神经 网 络 具 
有 两 层 输出 单元 。 因 此 ， 我 们 称 之 为 两 层 神经 网 络 。 (不 计算 输入 层 ， 因 为 它 只 用 来 
传递 输入 值 到 下 一 层 ) 类似 地 ， 包 含 两 个 隐藏 层 的 网 络 称 作 三 层 神经 网 络 等 。 网 络 是 
前 馈 的 ， 因 为 其 权重 都 不 回 送 到 输入 单元 ， 或 前 一 层 的 输出 单元 。 因 为 每 个 单元 都 向 
下 一 层 的 每 个 单元 提供 输入 。 

每 个 输出 单元 取 前 一 层 单元 输出 的 加 权 和 作为 输入 。 它 应 用 一 个 非 线 性 (激活 ) 
函数 作用 于 加 权 输 入 。 多 层 前 馈 神经 网 络 可 以 将 类 预测 作为 输入 的 非 线性 组 合 建 模 。 
从 统计 学 的 观点 来 讲 , 它们 进行 非 线性 回归 。 给 定 足 够 的 隐藏 单元 和 足够 的 训练 样本 ， 
多 层 前 馈 神 经 网 络 可 以 逼近 任意 函数 。 


4.6.2.3 定义 网 络 拓扑 


“如 何 设计 神经 网 络 的 拓扑 结构 ? ”在 开始 训练 之 前 ， 用 户 必 须 确定 网 络 拓扑 ， 
说 明 输入 层 的 单元 数 、 隐 藏 层 数 (如 果 多 于 一 层 ) 、 每 个 隐藏 层 的 单元 数 和 输出 层 的 
单元 数 。 

对 训练 元 组 中 每 个 属性 的 输入 测量 值 进行 规范 化 将 有 助 于 加 快 学 习 过 程 。 通 常 ， 
对 输入 值 规范 化 ， 使 得 它们 落 入 0.0 和 1.0 之 间 。 离 散 值 属性 可 以 重新 编码 ， 使 得 每 个 
域 值 有 一 个 输入 单元 。 例 如 ， 如 果 属 性 4 有 3 个 可 能 的 或 已 知 的 值 fao，a，o} 则 可 
以 分 配 三 个 输入 单元 表示 4， 即 我 们 可 以 用 五 ， 五 ,五 作为 输入 单元 。 每 个 单元 都 初始 
化 为 0。 如果 4=a， 则 五 置 为 1， 其 余 为 0; 如 果 4=a， 则 五 置 1， 其 余 为 0; 诸如 此 类 。 

神经 网 络 可 以 用 于 分 类 (预测 给 定 元 组 的 类 标号 ) 和 数值 预测 (预测 连续 值 输出 ) 。 
对 于 分 类 ， 一 个 输出 单元 可 以 用 来 表示 两 个 类 〈 其 中 值 1 代表 一 个 类 ， 而 值 0 代表 另 
一 个 类 ) 。 如 果 多 于 两 个 类 ， 则 每 个 类 使 用 一 个 输出 单元 。 


46.3 人工 神经 网 络 的 特点 


人 工 神 经 网 络 的 一 般 特点 概括 如 下 : 
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(1) 至 少 含有 一 个 隐藏 层 的 多 层 神 经 网 络 是 一 种 普 适 近似 CUniversal 
Approximator) ， 即 可 以 用 来 近似 任何 目标 函数 。 由 于 ANN 具有 丰富 的 假设 空间 ， 
因此 对 于 给 定 的 问题 ， 选 择 合 适 的 拓扑 结构 来 防止 模型 的 过 分 拟 合 是 很 重要 的 。 

(2) ANN 可 以 处 理 宛 余 特征 ， 因 为 权 值 在 训练 过 程 中 自动 学 习 。 宛 余 特 征 的 权 
值 非常 小 。 

G) 神经 网 络 对 训练 数据 中 的 噪声 非常 敏感 。 处 理 噪 声 问题 的 一 种 方法 是 使 用 
确认 集 来 确定 模型 的 泛 化 误差 ， 另 一 种 方法 是 每 次 迭代 把 权 值 减少 一 个 因子 。 

(4) ANN 权 值 学 习 使 用 的 梯度 下 降 方 法 经 常会 收敛 到 局 部 极 小 值 。 避 免 局 部 极 
小 值 的 方法 是 在 权 值 更 新 公式 中 加 上 一 个 动量 项 (Momentum Term) 。 

(5) 训练 ANN 是 一 个 很 耗 时 的 过 程 ， 特 别 是 当 隐 藏 结 点 数量 很 大 时 。 然 而 ， 
测试 样 例 分 类 时 非常 快 。 





.47 支持 向 量 机 ， 


4.7.1 支持 向 量 机 简介 


支持 向 量 机 (Support Vector Machine, SVM) 已 经 成 为 一 种 倍 受 关注 的 分 类 
技术 。 支 持 向 量 机 的 第 一 篇 论文 由 Vladimir Vapnik 和 他 的 同事 Bernhard Boser 及 
Isabelle Guyon 于 1992 年 发 表 ， 尽 管 其 基础 工作 早 在 20 世纪 60 年 代 就 已 经 出 现 〈 包 
括 Vapnik 和 Alexei Chervonenkis 关于 统计 学 习 理论 的 早期 工作 ) 。 简 要 地 说 ，SVM 
是 一 种 算法 ， 它 按 以 下 方法 工作 : 它 使 用 一 种 非 线性 映射 ， 把 原 训练 数据 映射 到 较 高 
的 维 上 。 在 新 的 维 上 , 它 搜索 最 佳 分 离 超 平面 (即将 一 个 类 的 元 组 与 其 他 类 分 离 的 “ 决 
策 边界 ”) 。 使 用 到 足够 高 维 上 的 、 合 适 的 非 线性 映射 ， 两 个 类 的 数据 总 可 以 被 超 平 
面 分 开 。SVM 使 用 支持 向 量 〈(“ 基 本 ”训练 元 组 ) 和 边缘 〈 由 支持 向 量 定义 ) 发 现 
该 超 平面 。 

这 种 技术 具有 坚实 的 统计 学 理论 基础 ， 并 在 许多 实际 应 用 (如 手写 数字 的 识别 、 
MADRE) 中 展示 了 大 有 可 为 的 实践 效用 。SVM 可 以 用 于 数值 预测 和 分 类 。 它 们 
已 经 用 在 许多 领域 ， 包 括 手写 数字 识别 、 对 象 识 别 、 演 说 人 识别 以 及 基准 时 间 序 列 预 
测 检验 。 此 外 ，SVM 可 以 很 好 地 应 用 于 高 维 数据 ， 避 免 了 维 灾难 问题 。 这 种 方法 具 
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有 一 个 独特 的 特点 ， 它 使 用 训练 实例 的 一 个 子 集 来 表示 决策 边界 ， 该 子 集 称 作 支 持 向 
量 (Support Vector) 。 

为 了 解释 SVM 的 基本 思想 ， 首 先 介绍 最 大 边缘 超 平 面 (Maximal Margin 
Hyperplane) 的 概念 以 及 选择 它 的 基本 原理 。 然 后 ， 描 述 在 线性 可 分 的 数据 上 怎样 训 
练 一 个 线性 的 SVM， 从 而 准确 地 找到 这 种 最 大 边缘 超 平面 。 最 后 ， 介 绍 如 何 将 SVM 
方法 扩展 到 非 线性 可 分 的 数据 上 。 


472 ”最 大 边缘 超 平面 


图 4-35 显示 了 一 个 数据 集 ， 包 含 两 个 不 同类 的 样本 ， 分 别 用 方块 和 圆圈 表示 。 
这 个 数据 集 是 线性 可 分 的 ， 即 可 以 找到 这 样 一 个 超 平面 ， 使 所 有 的 方块 位 于 这 个 超 平 
面 的 一 侧 ， 而 所 有 的 圆圈 位 于 它 的 另 一 侧 。 然 而， 正如 图 4-35 所 示 ， 可 能 存在 无 穷 
多 个 那样 的 超 平面 。 虽 然 它 们 的 训练 误差 都 等 于 零 ， 但 不 能 保证 这 些 超 平面 在 未 知 实 
例 上 运行 得 同样 好 。 根 据 在 检验 样本 上 的 运行 效果 ， 分 类 器 必须 从 这 些 超 平面 中 选择 
一 个 来 表示 它 的 决策 边界 。 


























图 4-35 一 个 线性 可 分 数据 集 上 的 可 能 决策 边界 


为 了 更 好 地 理解 不 同 的 超 平面 对 泛 化 误差 的 影响 ， 考 虑 两 个 决策 边界 ， 如 图 4-36 
所 示 。 这 两 个 决策 边界 都 能 准确 无 误 地 将 训练 样本 划分 到 各 自 的 类 中 。 每 个 决策 边界 
都 对 应 着 一 对 超 平面 ， 分 别 记 为 加 和 bne IER, ba 是 这 样 得 到 的 : 平行 移动 一 个 和 
决策 边界 平行 的 超 平面 ， 直 到 触 到 最 近 的 方块 为 止 。 类 似 地 ， 平 行 移动 一 个 和 决策 边 
界 平行 的 超 平面 ， 直 到 触 到 最 近 的 圆圈 ， 可 以 得 到 加 。 这 两 个 超 平面 之 间 的 间距 称 
为 分 类 器 的 边缘 。 通 过 图 4-36 中 的 图 解 ， 注 意 到 B 的 边缘 显著 大 于 B, 的 边缘 。 在 
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这 个 例子 中 ，B 就 是 训练 样本 的 最 大 边缘 超 平面 。 




















4-36 超 平面 


473 数据 线性 可 分 的 情况 


为 了 解释 SVM， 让 我 们 首先 考察 最 简单 的 情况 一 一 两 类 问题 ， 其 中 两 个 类 是 线 
性 可 分 的 。 设 给 定 的 数据 集 忆 为 Xo Wo (Ky Dovo Ao IDo RPX 
是 训练 元 组 ， 具 有 类 标号 y;。 每 个 y 可 以 取 值 + 1 或 -1， 分 别 对 应 类 buys_computer= 
yes 和 buys_computer 二 no， 为 了 便于 可 视 化 ， 让 我 们 考虑 一 个 基于 两 个 输入 属性 A, 
和 4, 的 例子 , 如 图 4-37 所 示 。 从 该 图 可 以 看 出 , 该 二 维 数据 是 线性 可 分 的 (或 简称 “ 线 
性 的 ”) ， 因 为 可 以 画 一 条 直线 ， 把 类 + 1 的 元 组 与 类 -1 的 元 组 分 开 。 





e ey g N ORL, y=+1 (buys_computer=yes) 
e e e. @ %2, y=-1 (buys_computer=no) 
a Ää 








图 4-37 支持 向 量 。SVM 发 现 最 大 分 离 超 平面 ， 即 与 最 近 的 训练 元 组 有 最 大 距离 的 超 平面 。 支 持 
向 量 用 加 粗 的 圆圈 显示 
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可 以 画 出 无 限 多 条 分 离 直线 。 我 们 想 找 出 “最 好 的 ”一 条 ， 即 〈 我 们 希望 ) 在 先 
前 未 见 到 的 元 组 上 具有 最 小 分 类 误差 的 那 一 条 。 如 何 找到 这 条 最 好 的 直线 ? 注意 ， 如 
果 我 们 的 数据 是 3-D 的 ( 即 具有 3 个 属性 ) ， 则 我 们 希望 找 出 最 佳 分 离 平面 。 推 广 
到 维 ， 我 们 希望 找 出 最 佳 超 平面 。 我 们 将 使 用 术语 “ 超 平 面 ”表示 我 们 寻找 的 决策 
边界 , 而 不 管 输入 属性 的 个 数 是 多 少 。 这 样 , 换 一 句 话 说 , 我 们 如 何 找 出 最 佳 超 平面 ? 

SVM 通过 搜索 最 大 边缘 超 平面 (Maximum Marginal Hyperplane, MMH) 来 处 理 
该 问题 。 考 虑 图 4-38， 它 显示 了 两 个 可 能 的 分 离 超 平面 和 它们 相关 联 的 边缘 。 在 给 
出 边缘 的 定义 之 前 ， 让 我 们 先 直 观 地 考察 该 图 。 两 个 超 平面 都 对 所 有 的 数据 元 组 正 
确 地 进行 了 分 类 。 然 而 ， 直 观 地 看 ， 我 们 预料 具有 较 大 边缘 的 超 平面 在 对 未 来 的 数 
据 元 组 分 类 上 比 具 有 较 小 边缘 的 超 平 面 更 准确 。 这 就 是 为 什么 〈 在 学 习 或 训练 阶段 ) 
SVM 要 搜索 具有 最 大 边缘 的 超 平面 ， 即 最 大 边缘 超 平面 。MMH 相关 联 的 边缘 给 出 
两 类 之 间 的 最 大 分 离 性 。 


A, A, 
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ORI, y=+1 (huys_computer=yes) OXI, y=+1 (buys_computer=yes) 
@ #2, y=-1 (buys_computer=no) @ %2, y= (huys_computer=no) 
(a) (b) 


图 4-38 这 里 ， 我 们 看 到 两 个 可 能 的 分 离 超 平面 和 它们 的 边缘 。 哪 一 个 更 好 ? 图 (b) 所 示 的 具有 
分 离 超 平面 应 当 具 有 更 高 的 泛 华 准确 率 和 边缘 


关于 边缘 的 非 形式 化 定义 ， 我 们 可 以 说 从 超 平面 到 其 边缘 的 一 个 侧面 的 最 短 距离 
等 于 从 该 超 平面 到 其 边缘 的 另 一 个 侧面 的 最 短 距离 ， 其 中 边缘 的 “侧面 ”平行 于 超 平 
面 。 事 实 上 ， 在 处 理 MMH 时 ， 这 个 距离 是 从 MMH 到 两 个 类 最 近 的 训练 元 组 的 最 短 
距离 。 
分 离 超 平面 可 以 记 为 
W* X+b-0 (4-32) 
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其 中 , WEEE, 即 Ww w o wh n 是 属性 数 ; b 是 标量 , 通常 称 作 偏 倚 (bias) 。 
为 了 便于 观察 , 让 我 们 考虑 两 个 输入 如 MAn WE 4-38 b) 所 示 。 训练 元 组 是 二 维 的 ， 
X= Gao o), HA x, Ale, PAX EE A, AA, 上 的 值 。 如 果 我 们 把 之 看 作 附 
加 的 权重 w， 则 我 们 可 以 把 分 离 超 平面 改写 成 


wotwixitwaxs—0 (4-33) 
这 样 ， 位 于 分 离 超 平面 上 方 的 点 满足 

Wot Wx, tww >0 (4-34 ) 
类 似 地 ， 位 于 分 离 超 平面 下 方 的 点 满足 

wotwixrtwx<0 (4-35 ) 


可 以 调整 权重 ， 使 得 定义 边缘 “侧面 ”的 超 平面 可 以 记 为 
H :wtwxtw,x,21 对 于 y,=+1 
Hy: Wy) + wx, +m Sl 对 于 = 一 1 
也 就 是 说 ， 落 在 也 上 或 上 方 的 元 组 都 属于 类 + 1， 而 落 在 H, 上 或 下 方 的 元 组 都 属于 
类 -1。 结 合 上 述 两 个 不 等 式 ， 我 们 得 到 


( 4-36 ) 


JV, (Wy + Wx, + W,X,)ZLVI (4-37 ) 
HEEF HA RH, CANE MBAS “TET” ) 上 的 任意 训练 元 组 都 使 上 式 的 等 号 成 立 ， 
称 为 支持 向 量 〈Support Vector) 。 也 就 是 说 ， 它 们 离 MMH 一 样 近 。 在 图 4-39 中 ， 
支持 向 量 用 加 粗 的 圆圈 显示 。 本 质 上 ， 支 持 向 量 是 最 难 分 类 的 元 组 ， 并 且 给 出 了 最 多 
的 分 类 信息 。 








Š o 
“60 (0) 
S 4 (0) 
~ w” 
、 浇 
S x 
© ~ YY 
ot. ORL, y=+1 (buys_computer=yes) 
@ @ OS @ X2, y=- (buys_computer=no) 
Š pi 
图 4-39 支持 向 量 


由 上 ， 我 们 可 以 得 到 最 大 边缘 的 计算 公式 。 从 分 离 超 平面 到 瓦 上 任意 点 的 距离 


1 
Zw] 其 中 ||| ZOLA, NW -W. REEL CEF H 上 任意 点 到 分 


2 
离 超 平面 的 距离 。 因 此 ， 最 大 边缘 是 | 丈 |* 
“一 旦 我 们 得 到 训练 后 的 支持 向 量 机 ， 如 何 用 它 对 检验 元 组 〈 即 新 元 组 ) 分 类 ? ” 
根据 上 面 提 到 的 拉 格 朗 日 公式 ， 最 大 边缘 超 平面 可 以 改写 成 决策 边界 


了 
d(X*) => y,a,X,X" +b, (4-38) 
i=l 


其 中 , y AMARA X 的 类 标号 ; XA 是 检验 元 组 :a; 和 b。 是 由 上 面 的 最 优化 或 
SVM 算法 自动 确定 的 数值 参数 ， 而 1 是 支持 向 量 的 个 数 。 

给 定 检验 元 组 X7， 组 我 们 将 它 代 入 式 〈4-36) ， 然 后 检查 结果 的 符号 。 这 将 告诉 
我 们 检验 元 组 落 在 超 平面 的 哪 一 侧 。 如 果 该 符号 为 正 ， 则 XX 落 MMH 上 或 上 方 ， 因 而 
SVM 预测 X" 属于 类 +1 (在 此 情况 下 ,代表 bwys_computef= yes) 。 如 果 该 符号 为 负 ， 
W XT MMH 下 或 下 方 ， 因 而 SVM 预测 XT 属于 类 -1 (代表 buys_computer=no) 。 

在 考虑 非 线性 可 分 的 情况 之 前 ， 还 有 两 件 重要 的 事情 需要 注意 。 学 习 分 类 器 的 复 
杂 度 由 支持 向 量 数 而 不 是 由 数据 的 维 数 刻 画 。 因 此 ， 与 其 他 方法 相 比 ，SVM 不 太 容 
易 过 分 拟 合 。 支 持 向 量 是 基本 或 临界 的 训练 元 组 一 一 它们 距离 决策 边界 (MMH) 最 近 。 
如 果 删 除 其 他 元 组 并 重新 训练 ， 则 将 发 现 相 同 的 分 离 超 平面 。 此 外 ， 找 到 的 支持 向 量 
数 可 以 用 来 计算 SVM 分 类 器 的 期 望 误差 率 的 上 界 ， 这 独立 于 数据 的 维度 。 具 有 少量 
支持 向 量 的 SVM 可 以 有 很 好 的 泛 化 性 能 ， 即 使 数据 的 维度 很 高 时 也 是 如 此 。 


474 数据 非 线 性 可 分 的 情况 


在 4.7.3 节 ， 我 们 学 习 了 对 线性 可 分 数据 分 类 的 线性 SVM。 但是， 如果 数据 不 是 
线性 可 分 的 〈 见 图 4-40 中 的 数据 ) 怎么 办 ? 在 这 种 情况 下 ， 不 可 能 找到 一 条 将 这 些 
类 分 开 的 直线 。 我 们 上 面 研 究 的 线性 SVM 不 可 能 找到 可 行 解 ， 怎 么 办 ? 

好 消息 是 ， 可 以 扩展 上 面 介 绍 的 线性 SVM， 为 线性 不 可 分 的 数据 〈 也 称 非 线 性 
可 分 的 数据 ， 或 简称 非 线性 数据 ) 的 分 类 创建 非 线 性 的 SVM。 这 种 SVM 能 够 发 现 
输入 空间 中 的 非 线 性 决策 边界 〈 即 非 线 性 超 曲 面 ) 。 

你 可 能 会 问 : “如 何 扩展 线性 方法 ? ”我 们 按 如 下 扩展 线性 SVM 的 方法 ， 得 到 
非 线 性 的 SVM。 有 两 个 主要 步骤 : 第 一 步 ， 我 们 用 非 线性 映射 把 原 输入 数据 变换 到 
较 高 维 空间 。 这 一 步 可 以 使 用 多 种 常用 的 非 线性 映射 。 第 二 步 ， 一 旦 将 数据 变换 到 较 
高 维 空间 ， 就 在 新 的 空间 搜索 分 离 超 平面 。 我 们 又 遇 到 二 次 优化 问题 ， 可 以 用 线性 
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SVM 公式 求解 。 在 新 空间 找到 的 最 大 边缘 超 平面 对 应 原 空间 中 的 非 线 性 分 离 超 曲面 。 


A, 


ORL, y=+] (huys_computer=yes) 
@ %2, y=- (huys_computer=no) 
A, 


图 4-40 ”线性 不 可 分 简单 例子 ， 不 能 画 一 条 直线 将 两 个 类 分 开 











475 支持 向 量 机 的 特征 


SVM 具有 许多 很 好 的 性 质 ， 因 此 它 已 经 成 为 广泛 使 用 的 分 类 算法 之 一 。 下 面 简 
要 总 结 一 下 SVM 的 一 般 特征 : 

(1) SVM 学 习 问题 可 以 表示 为 凸 优化 问题 ， 因 此 可 以 利用 已 知 的 有 效 算 法 发 现 
目标 函数 的 全 局 最 小 值 。 而 其 他 的 分 类 方法 〈 如 基于 规则 的 分 类 器 和 人 工 神经 网 络 ) 
都 采用 一 种 基于 贪心 学 习 的 策略 来 搜索 假设 空间 , 这 种 方法 一 般 只 能 获得 局 部 最 优 解 。 

(2) SVM 通过 最 大 化 决策 边界 的 边缘 来 控制 模型 的 能 力 。 尽 管 如 此 ， 用 户 必 须 
提供 其 他 参数 ， 如 使 用 的 核 函 数 类 型 、 为 了 引入 数据 变化 所 需 的 代价 函数 C 等 。 

(3) 通过 对 数据 中 每 个 分 类 属性 值 引入 一 个 哑 变 量 , SVM 可 以 应 用 于 分 类 数据 。 
例如 ， 如 果 婚 姻 状况 有 三 个 值 { 单身 ， 已 婚 ， 离 异 }， 可 以 对 每 一 个 属性 值 引入 一 个 
二 元 变量 。 
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分 类 算法 因 具 有 预测 功能 而 在 实际 生产 生活 中 具有 十 分 广泛 的 应 用 。 本 章 将 介绍 
另外 一 种 同样 具有 预测 功能 的 数据 挖掘 方法 一 一 回 归 分 析 。5.1 节 引 入 回归 分 析 的 概 
念 及 功能 ，5.2 节 介绍 一 元 线性 回归 的 原理 及 实际 操作 ;5.3 节 在 一 元 线性 回归 的 基础 
上 讲解 多 元 线性 回归 ; 5.4 节 介 绍 多 种 不 同 的 非 线性 回归 以 扩充 可 能 的 各 种 模型 ，5.5 
节 介绍 逻辑 回归 的 算法 模型 及 实际 操作 。 


回归 分 析 是 确定 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 定量 关系 的 一 种 统计 分 析 方 
法 ， 是 应 用 极其 广泛 的 数据 分 析 方 法 之 一 。 作 为 一 种 预测 建 模 技术 ， 它 基于 观测 数据 
建立 变量 间 适 当 的 依赖 关系 ， 以 分 析 数 据 内 在 规律 ， 并 可 用 于 预报 、 控 制 等 问题 。 

回归 分 析 按 照 涉 及 的 变量 多 少 ， 分 为 一 元 回归 和 多 元 回归 分 析 ; 按照 自 变量 和 因 
变量 之 间 的 关系 类 型 ， 可 分 为 线性 回归 分 析 和 非 线性 回归 分 析 ; 在 线性 回归 中 ， 按 照 
因 变 量 的 多 少 ， 可 分 为 简单 回归 分 析 和 多 重 回归 分 析 ; 如 果 在 回归 分 析 中 ， 只 包括 一 
个 自 变量 和 一 个 因 变 量 ， 且 二 者 的 关系 可 用 一 条 直线 近似 表示 ， 这 种 回归 分 析 称 为 一 
元 线性 回归 分 析 。 如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变量 ， 且 自 变 量 之 间 存 在 
线性 相关 ， 则 称 为 多 元 线性 回归 分 析 。 逻 辑 回 归 模 型 其 实 仅 在 线性 回归 的 基础 上 ， 套 
用 了 一 个 逻辑 函数 ， 用 于 预测 二 值 型 因 变 量 ， 但 其 在 机 器 学 习 领 域 有 着 特殊 的 地 位 ， 
并 且 是 计算 广告 学 的 核心 。 

在 运营 商 的 智慧 运营 案例 中 ， 多 元 线性 回归 可 以 用 来 预测 用 户 下 个 月 的 通话 及 流 
量 费用 ， 以 便 给 用 户 精准 推送 套餐 或 者 流量 包 ; 轴 辑 回归 可 以 通过 历史 数据 预测 用 户 
未 来 可 能 发 生 的 购买 行为 ， 通 过 模型 推送 的 精准 性 降低 营销 成 本 以 扩大 利润 。 


当 两 个 变量 间 存 在 线性 相关 关系 时 ， 常 常 希望 在 两 者 间 建 立定 量 关 系 ， 两 个 相关 
变量 间 的 定量 关系 的 表达 即 是 一 元 线性 回归 方程 。 





第 5 章 回归 分 析 











5.21 一 元 线性 回归 的 基本 原理 


将 两 个 变量 的 值 绘制 到 散 点 图 ， 从 散 点 图 上 看 ，n 个 点 在 一 条 直线 附近 波动 ， 一 
元 线性 回归 方程 便 是 对 这 条 直线 的 一 种 估计 。 在 估计 出 这 条 直线 后 ， 就 可 以 利用 这 
一 直线 方程 根据 给 定 的 自 变 量 来 预测 因 变量 ， 这 就 是 一 元 线性 回归 分 析 要 解决 的 
问题 。 
下 面 我 们 假设 自 变 量 x 是 一 般 变量 ， 因 变量 y 是 随机 变量 ， 对 于 固定 的 x 值 、 
Y 值 也 有 可 能 不 同 。 假 定 ? 的 均值 是 x 的 线性 函数 ， 并 且 波 动 是 一 致 的 。 此 外 总 假 
定 n 组 数据 的 搜集 是 独立 进行 的 。 在 这 些 假定 的 基础 上 ， 建 立 如 下 的 一 元 线性 回 
归 模 型 : 
E (y) =BotBx (5-1) 
其 中 x 为 自 变量 ; y 为 因 变 量 ， Mp 是 该 模型 的 参数 ， 称 为 回归 系数 。 做 这 件 
事 的 标准 方法 是 使 用 最 小 二 乘法 。 该 方法 试图 找 出 这 两 个 参数 。 
5.2.1.1 最 小 二 乘法 
一 元 线性 回归 的 表达 式 描述 了 y 的 平均 值 或 期 望 值 如 何 依赖 于 自 变量 x。 现 在 给 
ET n 对 样本 数据 Oo y) ， 关 1，2，…，71， 要 我 们 根据 这 些 样本 数据 去 估计 By 和 
Bo HERA By 和 房 。 如 果 房 AB, 已 经 估计 出 来 ， 那 么 在 给 定 的 x 值 上 ， 回 归 直 
线 上 对 应 的 点 的 纵 坐 标 为 : 
和 =$ + Âx, (5-2) 


称 多 为 回归 值 ， 实 际 的 观测 值 ”与 久之 问 存在 偏差， 记 偏 差 为 VEn), 
我 们 希望 Vy 最 小 。 可 以 证 明 ， 根 据 微分 学 的 原理 ， 可 以 证 明 要 使 V Bb, ĝo AA, 
的 值 应 为， 


ay -(s) (53) 
ĝi =y-ĝ,x 
这 一 组 解 称 为 最 小 二 乘 估计 ， 其 中 是 回归 直线 的 斜率 ， 记 是 回归 直线 的 截 距 ， 
二 者 可 以 统称 为 回归 系数 。 
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5.2.1.2 ”回归 系数 





通过 以 上 介绍 的 最 小 二 乘法 ， 就 可 以 通过 样本 数据 求 得 记 AA 这 两 个 回归 系数 ， 
也 就 能 找到 回归 方程 。 在 不 致 混淆 的 情况 下 ， 下 文 将 回归 系数 的 最 佳 估计 值 P MÊ, 
ASPB By Fl By» BI 


E (y) pbx (5-4) 
完成 回归 分 析 的 主要 任务 。 





5.2.2 一 元 线性 回归 性 能 评估 


一 元 线性 回归 得 到 的 模型 即 为 回归 方程 ， 该 模型 可 以 用 回归 直线 的 拟 合 优 度 来 进 
行 评 价 。 所 谓 拟 合 优 度 ， 是 指 回 归 直 线 对 观测 值 的 拟 合 程度 。 显 然 若 观测 点 离 回 归 直 线 
近 ， 则 拟 合 程度 好 ; 反之 ， 则 拟 合 程度 差 。 度 量 拟 合 优 度 的 统计 量 是 可 决 系数 (也 称 
判定 系数 ) 尺 。 可 决 系数 是 回归 平方 (SSR》 占 误差 平方 和 (SS7T) 的 比例 ， 计 算 公式 为 





Ring? 30 
psr ZO) 
n 一 2 

SST (01-9) 


R 的 取 值 范围 是 [0，1]。R? 的 值 越 接近 1， 说 明 回归 直线 对 观测 值 的 拟 合 程度 越 
好 ;反之 ，R 的 值 越 接近 0， 说 明 回归 直线 对 观测 值 的 拟 合 程度 越 差 。 在 进行 回归 分 
析 时 ， 首 先 观察 判定 系数 的 大 小 ， 如 果 判 定 系 数 太 小 ， 说 明 自 变量 对 因 变 量 的 线性 解 
释 程 度 太 小 ， 即 模型 的 现实 意义 不 大 ， 可 以 考虑 使 用 别 的 分 析 方 法 进行 分 析 ， 或 者 使 
用 多 元 线性 回归 和 曲线 回归 分 析 方法 。 


(5-5) 


5.23 ”SPSS 软 件 中 一 元 线性 回归 应 用 案例 


本 节 内 容 主要 介绍 如 何在 SPSS 中 确定 并 建立 一 元 线性 回归 方程 ,进行 回归 分 析 。 
下 面 以 某 地 区 的 用 户 前 三 月 平均 通话 分 钟 数 (MOU) 和 前 三 月 平均 话费 (ARPU) 统 
计 的 一 元 线性 回归 为 例 ， 讲 解 其 操作 步骤 和 分 析 过 程 。 


5.2.3.1 一 元 线性 回归 分 析 的 操作 步骤 
1. 在 菜单 上 依次 选择 “分 析 ” 一 “回归 ”一 “线性 ”， 如 图 5-1 所 示 。 





第 5 章 回归 分 析 2171 













, 
. 
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一 < 
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neaku 》 WD 1 WOW Y o 
Rane) 26203 oA 104W0WCDUA Y o 
roc sam 3949 374439 WWI 5006540TDLTE Y o 
3940 MSE) 199677 17007 50 TD-SCDMA Y 0 
3 m wo Wer M WAN MOTOUE Y o 
2 181 45462 M217 32018 3858 357467 MOI 27811MCOUA Y 1 
27814 BO COMA Y 0 








2. 在 打开 的 “线性 ”对 话 框 中 , 将 变量 “前 三 个 月 平均 ARPU” 移 入 “ 因 变 量 (D)” 
中 ， 将 “前 三 个 月 平均 MOU” 移 入 “ 自 变量 CD ”列表 框 中 。 在 “方法 M) ” 选 
项 框 中 选择 “进入 ”选项 ， 表 示 所 选 的 自 变量 全 部 进入 回归 模型 ， 如 图 5-2 所 示 。 











图 5-2 ”线性 回归 对 话 框 


此 对 话 框 中 其 余 内 容 简 要 介绍 如 下 : 
(1) 选择 变量 框 用 来 对 样本 数据 进行 筛选 ， 挑 选 满足 一 定 条 件 的 样本 数据 进行 
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线性 回归 分 析 。 

(2) 个 案 标签 框 用 来 表示 作 图 时 ， 以 哪个 变量 作为 各 样本 数据 点 标志 变量 。 

(3) WSL Weight 〈 加 权 ) 选项 是 存在 异 方差 时 ， 利 用 加 权 最 小 二 乘法 蔡 代 普通 
最 小 二 乘法 估计 回归 模型 参数 。 通 过 WSL 可 以 选 定 一 个 变量 作为 权重 变量 。 在 实际 
问题 中 ， 如 果 无 法 自行 确定 权重 变量 ， 可 以 用 SPSS 的 权重 估计 来 实现 。 

3. 单 击 “ 统 计量 (S) ”按钮 ,在 统计 量子 对 话 框 中 , 设置 要 输出 的 统计 量 。 这 里 选中 
“估计 CE) ”“ 模 型 拟 合 度 M) ”和 “Durbin-Watson (U) ” 复 选 枉 ， 如 图 5-3 所 示 。 





| @ aene: site x 


| mapt ¥ EEEL] 

z faite) RSIS) 

口内 信和 区 间 描述 性 

|| x7 ABH HA X AoW IBA) 
D DARE) AAO 

Me 


T [Durbin-Watson(U} 
BTRC) 
Cann 
ORT 


(aus) ma) sm, 
图 5-3 线性 回归 : 统计 量子 对 话 

此 对 话 框 中 的 内 容 介绍 如 下 : 

O) 估计 : 输出 有 关 回 归 系 数 的 统计 量 ， 包 括 回 归 系 数 、 回 归 系 数 的 标准 差 、 
标准 化 的 回归 系数 、t 统 计量 及 其 对 应 的 P 值 等 。 

(2) 置信 区 间 : 输出 每 个 回归 系数 95% 的 置信 度 估计 区 间 。 

G) 协 方差 矩阵 ， 输 出 解释 变量 的 相关 系数 矩阵 和 协 方差 阵 。 

(4) 模型 拟 合 度 : 输出 可 决 系数 、 调 整 的 可 决 系数 、 回 归 方程 的 标准 误差 、 回 
归 方 程 下 检验 的 方差 分 析 。 

G) R? 变 化， 表示 当 回归 方程 中 引入 或 剔除 一 个 自 变量 后 及 、 开 值 产生 的 变化 量 。 

(6) 描述 性 : 输出 自 变量 和 因 变量 的 均值 、 标 准 差 、 相 关系 数 和 矩阵 及 单 侧 检 验 概率 。 

(7) 部 分 相关 和 偏 相关 性 : 输出 方程 中 各 自 变量 与 因 变 量 之 间 的 简单 相关 系数 、 
偏 相 关系 数 与 部 分 相关 系数 。 


(8) 共 线 性 诊断 : 多 重 共 线性 分 析 ， 输 出 各 自 变量 的 容 限度 、 方 差 膨 胀 因子 、 
最 小 容忍 度 、 特 征 值 、 条 件 指标 、 方 差 比例 等 。 
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残 差 栏 是 有 关 残 差分 析 的 选择 项 ， 内 容 介绍 如 下 : 

(1) Durbin-Watson: 输出 Durbin-Watson 检验 值 ; 刀 矿 检验 用 来 检验 残 差 的 自 相 
关 。 自 相关 是 指 随机 误差 项 的 各 期 望 值 之 间 存 在 着 相关 关系 。 在 回归 分 析 中 ， 残 差 最 
好 不 存在 自 相关 。 

(2) PRET: 输出 标准 化 残 差 绝 对 值 > 3 的 样本 数据 点 的 相关 信息 ， 包 括 标 
准 化 残 差 、 观 测 值 、 预 测 值 、 残 差 。 其 中 分 离 到 外 部 ， 用 来 设置 奇异 值 判 据 ， 默 认为 
> 3 倍 标准 差 的 数据 被 放弃 ; 所 有 观测 量 ， 表 示 输 出 所 有 样本 数据 的 有 关 残 差 值 。 

4. 单 击 “ 绘 制 (T) ”按钮 ， 弹 出 “线性 回归 : 图 ” 子 对 话 框 ， 该 对 话 框 用 来 设 
置 对 残 差 序 列 做 图 形 分 析 ， 从 而 检验 残 差 序 列 的 正 态 性 、 随 机 性 和 是 否 存在 异 方差 现 
象 。 本 例 勾 选 “ 直 方 图 ”“ 正 态 概率 图 ”用 于 分 析 残 差 的 正 态 性 ， 如 图 5-4 所 示 。 
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CETATE] D 产生 所 有 部 分 图 [P) 
vane 

VESRERER) 

(aa) ea iam 


图 5-4 RHEE: 图 子 对 话 框 


此 对 话 框 中 的 内 容 介绍 如 下 : 

(1) 在 左上 角 的 变量 框 中 ， 选 择 DEPENDENT ( 因 变 量 ) 使 之 添加 到 YY AAAS 
量 框 ， 再 选择 其 他 变量 使 之 添加 到 : 了 轴 变 量 框 。 可 以 作为 轴 变 量 的 其 余 参 数 如 下 : 
@ DEPENDENT 选项 : HÆÆ; © ZPRED 选项 : 标准 化 预测 值 ，@ ZRESID 选 
Til: 标准 化 残 差 ，@ DRESID 选项 : GIR; © ADJPRED 选项 : 修正 后 预测 值 ; 
© SRESID 选项 : 学 生化 残 差 ，@D SDRESID 选项 : 学 生化 剔除 残 差 。 

(2) 选中 “产生 所 有 部 分 图 ”选项 ， 将 输出 每 个 自 变量 残 差 相 对 于 因 变 量 残 差 
散 点 图 ， 用 于 残 差分 析 。 

G) 标准 化 残 差 图 栏 中 可 选择 使 用 直方 图 正 态 概率 图 。Q@ 直 方 图 ， 输 出 带 有 正 
态 曲线 的 标准 化 残 差 的 直方 图 ，@ 正 态 概率 图 ， 检 查 残 差 的 正 态 性 。 

5. 单 击 “ 保 存 ” 按 钮 ， 弹 出 “保存 ” 子 对 话 框 ， 在 该 对 话 框 中 能 够 设置 将 回归 分 
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析 的 结果 保存 到 SPSS 数据 编辑 窗口 的 变量 中 ， 或 某 个 SPSS 的 数据 文件 中 。 在 残 差 
选项 栏 中 选中 任意 一 复 选 框 ， 这 样 可 以 在 数据 文件 中 生成 一 个 对 应 项 的 残 差 变量 ， 以 
便 对 残 差 进行 进一步 分 析 。 本 例 不 做 介绍 ， 感 兴趣 的 读者 可 以 自行 进行 分 析 。 

此 对 话 框 中 的 内 容 简 要 介绍 如 下 。 

a) 预测 值 栏 中 选项 有 四 个 。@D 未 标准 化 : 保存 非 标准 化 预测 值 ，@@ 标 准 化 : 
保存 标准 化 预测 值 ，@@ 调 整 : 保存 调节 预测 值 ，@ 平 均 标 准 误差 预测 :保存 预测 值得 
标准 误差 。 

(2) 距离 栏 中 选项 有 三 个 。@ Mahalanobis 距离 : 保存 Mahalanobis 距离 ; 
@ Cook 距离 : 保存 Cook 距离 ，@ 杠 杆 值 :保存 中 心 点 杠杆 值 。 

G) 预测 区 间 栏 中 选项 有 三 个 。Q@ 均 值 ， 保 存 预 测 区 间 高 低 限 的 平均 值 ，@ 单 
E: 保存 一 个 观测 量 上 限 与 下 限 的 预测 区 间 ;，@ 置 信 区 间 : 可 确定 置信 区 间 ， 默 认 值 
为 95%。 

(4) 残 差 栏 中 选项 有 五 个 。@ 未 标准 化 : 保存 非 标准 化 残 差 ; @ 标 准 化 : 标准 
WRF; @ 学 生化 : 学 生化 残 差 ,也 叫 了 化 残 差 ， 它 比 用 标准 残 差 判断 异常 点 更 适用 ; 
图 删 除 :剔除 残 差 ，@@ 学 生化 已 删除 : 学 生 剔除 残 差 。 

(5) 影响 统计 量 栏 中 选项 有 五 个 。Q@ DfBeta: 因 排 除 一 个 特定 的 观测 值 所 引起 
的 回归 系数 的 变化 ,一 般 情况 下 , 该 值 如 果 大 于 2, 则 被 排除 的 观测 值 有 可 能 是 影响 点 
@ 标 准 化 DfBeta; © DfFit， 因 排除 一 个 特定 的 观测 值 所 引起 的 预测 值 的 变化 ，@ 标 
准 化 DfFit，@@ 协 方差 比率 ， 剔除 一 个 影响 点 观测 量 的 协 方差 矩阵 与 全 部 观测 量 的 协 
方差 矩阵 比 。 

(6) 系数 统计 栏 中 ， 选 中 “创建 系数 统计 ”选项 ， 可 将 回归 系数 结果 保存 到 一 
个 指定 的 文件 中 。 

C 输出 模型 信息 到 XML 文件 栏 , 表示 将 模型 的 有 关 信 息 输出 到 一 个 XML 文件 中 。 


5.2.3.2 一 元 线性 回归 分 析 的 结果 解读 


SPSS 的 一 元 线性 回归 分 析 的 输出 结果 中 共 输出 五 个 表 和 两 个 图 ， 五 个 表 为 输入 / 
移 去 的 变量 表 、 模 型 汇总 表 、ANOVA 方差 分 析 表 、 回 归 系 数 表 、 残 差 统 计 表 ， 两 个 
图 为 标准 化 残 差 的 直方 图 和 正 态 分 布 图 (P-P 图 ) 。 

1. 输入 / 移 去 的 变量 表 

表 5-1 是 拟 合 过 程 中 变量 输入 / 移 去 模型 的 情况 记录 ， 由 于 我 们 只 引入 了 一 个 自 
变量 ， 所 以 只 出 现 了 一 个 模型 1 (在 多 元 回归 中 就 会 依次 出 现 多 个 回归 模型 ) ， 该 模 
型 中 “前 三 个 月 平均 MOU” 为 输入 的 变量 ， 因 变量 为 “前 三 个 月 平均 ARPU” 没 有 
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移出 的 变量 ， 具 体 的 输入 / 移 去 方法 为 “进入 ”。 


表 5-1 输入 / 移 去 的 变量 " 
型 输入 的 变量 
1 前 三 个 月 平均 MOU 
b AZE: 前 三 个 月 平均 ARPU 











2. 模型 汇总 表 

表 5-2 为 所 拟 合 模型 的 情况 汇总 ， 反 映 的 是 一 元 线性 回归 模型 拟 合 的 情况 ， 相 
KAM R=0.680， 决 定 系 数 ( 拟 合 优 度 ) R=0.463， 回 归 估 计 的 标准 差 S=65.54， 
Durbin-Watson=1.367， 模 型 拟 合 效 果 很 理想 。 


表 5-2 模型 汇总 ” 
| 模型 | rR | e | 调整 R | _ 标准 估计 的 误差 
fi pee om low lases lr | 


a 预测 变量 : (常量 ) ， 前 三 个 月 了 
b. 因 变量 : 前 三 个 月 平均 ARPU 








3. ANOVA 方差 分 析 表 

表 5-3 中 可 以 看 出 离 差 平方 和 (Total) =80628442， 残 差 平 方 和 (Residual) 
=43294892， 而 回归 平方 和 (Regression) =37333550。 回 归 方程 的 显著 性 检验 中 ， 统 
计量 为 9543， 对 应 的 置信 水 平 为 0.000， 远 比 常用 的 置信 水 平 0.05 要 小 ， 因 此 可 以 认 
为 方程 是 极 显著 的 。 


表 5-3 ANOVA? 
均 方 F 
| 37333550.113 37333550.113 |9543.167 | 0.000° 
| 43294892.343 3912.071 | 
| 80628442.456 | 


a. 预测 变量 (常量 ) ， 前 三 个 月 平均 MOU. 
b. 因 变 量 : 前 三 个 月 平均 ARPU 





























4. 回归 系数 分 析 表 

回归 系数 分 析 表 ( 见 表 5-4) ， 是 回归 系数 以 及 对 回归 方程 系数 的 检验 结果 ， 
系数 显著 性 检验 采用 1 检验 。 从 表 中 可 以 看 出 ， 非 标准 化 系数 回归 方程 的 常数 项 
B=47.515， 回 归 系 数 p=0.091。 回 归 系 数 检验 统计 量 62.552, Sig 为 相伴 概率 值 


2211 


| 222 


大 数据 、 数 据 挖掘 与 智慧 运营 


p<0.001。 由 此 可 知 回归 方程 : 





Y=47.515+0.09 1x 
常数 项 显著 水 平 为 0.005， 回 归 系 数 为 0.000， 表 明 用 1 统计 检验 量 假 设 回归 系数 
等 于 0 的 概率 为 0.000， 远 比 常用 的 置信 水 平 0.05 要 小 ， 因 此 可 以 认为 两 个 变量 之 间 
的 线性 关系 是 极为 显著 的 ， 建 立 的 回归 方程 是 有 效 的 。 


表 5-4 RR? 








(常量 ) 1 





前 三 个 月 
a. 因 变量 。 前 三 个 月 平均 ARPU 








5. 残 差 统计 量 表 

残 差 是 指 观测 值 与 预测 值 〈 拟 合 值 ) 之 间 的 差 ， 即 是 实际 观察 值 与 回归 估计 值 的 
差 。 残 差 统 计量 表 〈 见 表 5-5) 反映 的 是 拟 合 值 和 残 差 的 极 大 值 、 极 小 值 及 均值 。 标 
准 化 残 差 的 均值 为 0， 标准 偏差 为 0.999， 接 近 1， 也 就 是 说 标准 化 残 差 近 似 标准 正 态 
分 布 。 初 步 说 明 预 测 值 是 观测 无 偏 估计 的 假设 合理 。 


R55 KERB? 
C p A | | 
Bm [aa pow fes fe 
me pos fee ooo foe oo 








前 面 介 绍 的 一 元 线性 回归 分 析 所 反映 的 是 一 个 因 变 量 与 一 个 自 变量 之 间 的 关系 。 


但 是 ， 在 实际 的 经 济 活动 中 ， 某 一 现象 的 变动 常 受 多 种 现象 变动 的 影响 。 在 回归 分 析 
中 ， 如 果 有 两 个 或 两 个 以 上 的 自 变量 ， 就 称 为 多 元 回归 。 例 如 ， 用 户 的 信用 等 级 这 一 
变量 就 不 是 和 某 个 单一 变量 有 线性 关系 ， 而 是 和 消费 水 平 、 是 否 从 费 、 历 史 信用 记录 
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等 多 个 因素 存在 内 在 的 某 种 关系 。 再 比如 ， 家 庭 消费 支出 ， 除 了 受 家 庭 可 支配 收入 的 
影响 外 , 还 受 诸如 家 庭 所 有 的 财富 、 物 价 水 平 、 金 融 机 构 存 款 利息 等 多 种 因素 的 影响 。 

事实 上 ， 一 种 现象 常常 是 与 多 个 因素 相 联 系 的 ， 由 多 个 自 变量 的 最 优 组 合共 同 来 
预测 或 估计 因 变 量 ， 比 只 用 一 个 自 变量 进行 预测 或 估计 更 有 效 ， 更 符合 实际 。 在 许多 
场合 ， 仅 仅 考虑 单个 变量 是 不 够 的 ， 还 需要 就 一 个 因 变 量 与 多 个 自 变量 的 联系 来 进行 
考察 ， 才 能 获得 比较 满意 的 结果 。 这 就 产生 了 测定 多 因素 之 间 相关 关系 的 问题 。 因 此 
多 元 线性 回归 比 一 元 线性 回归 的 实用 意义 更 大 。 





5.3.1 多 元 线性 回归 基本 原理 


研究 在 线性 相关 条 件 下 ， 两 个 和 两 个 以 上 自 变量 对 一 个 因 变 量 的 数量 变化 关系 ， 
称 为 多 元 线性 回归 分 析 ， 表 现 这 一 数量 关系 的 数学 公式 ， 称 为 多 元 线性 回归 模型 。 多 
元 线性 回归 模型 是 一 元 线性 回归 模型 的 扩展 ， 其 基本 原理 与 一 元 线性 回归 模型 类 似 ， 
只 是 在 计算 上 比较 麻烦 一 些 而 已 。 

假定 因 变量 了 与 ?个 自 变量 mm, Xp) oo x, 之 间 的 关系 可 以 近似 用 线性 函数 来 反映 。 
那么 ， 多 元 线性 回归 模型 的 一 般 形式 如 下 : 

Y=p, + Ba + yx, ++ Bx, tE (5-6 ) 

其 中 ，s EAP: Bo By +> B, 是 总 体 回归 系数 。 

定性 来 看 ， 回 归 系 数 的 正 负 ， 表 征 的 是 对 应 自 变量 x 与 因 变量 了 关系 是 否 是 
正 相 关 。 如 果 忆 为 正 ， 那 么 x 和 了 之 间 为 正 相 关 ; WRAAE WA xM YA 
负 相 关 。 回 归 系 数 b 定 量 来 看 ， 这 些 回 归 系 数 户 表示 在 其 他 自 变量 保持 不 变 的 情况 
F, 自 变 量 x; 变 动 一 个 单位 所 引起 的 因 变量 了 平均 变动 的 单位 数 , 因而 又 叫 偏 回归 参数 。 

回归 系数 pb 的 求解 方法 也 是 用 广义 的 最 小 二 乘法 进行 估计 ， 与 一 元 线性 回归 有 
类 似 之 处 。 由 于 计算 较为 复杂 且 在 实际 应 用 时 也 可 以 使 用 SPSS 或 其 他 软件 计算 ， 在 
此 处 就 不 再 袭 述 ， 感 兴趣 的 读者 可 以 自行 查阅 相关 资料 。 


5.3.2” 自 变量 选择 方法 


在 进行 多 元 线性 回归 的 时 候 ， 会 遇 到 一 个 自 变 量 选择 的 问题 。 即 当 数 据 中 字段 较 
多 ， 比 如 超过 1000 甚至 更 多 的 时 候 ， 把 所 有 字段 都 拿 来 做 多 元 线性 回归 的 自 变量 是 
不 可 行 的 : 一 方面 ， 回 归公 式 过 长 不 易 操作 且 计 算 量 过 大 ; 另 一 方面 ， 会 存在 很 多 与 
因 变量 没什么 太 大 关系 ， 甚 至 对 问题 解决 有 干扰 的 自 变量 。 所 以 ， 选 择 合适 的 数据 字 
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段 作为 多 元 线性 回归 模型 的 自 变 量 是 很 有 必要 的 。 

具体 的 选择 方法 就 是 找 出 和 因 变 量 了 最 相关 的 几 个 自 变量 x， 因 为 多 元 回归 分 析 
的 内 涵 就 是 用 多 个 自 变 量 去 解释 因 变量 。 那 么 和 因 变 量 越 相 关 的 自 变量 也 就 能 更 好 地 
解释 因 变 量 ， 在 曲线 拟 合 上 就 可 以 更 好 地 描述 因 变 量 的 统计 或 其 他 特性 。 作 为 描述 变 
量 之 间 线 性 相关 性 大 小 特征 的 变量 ， 双 变量 相关 算出 的 皮尔 森 相 关 性 系数 可 以 帮助 我 
们 找 出 和 因 变 量 更 加 相关 的 自 变量 。 


5.3.2.1 双 变 量 相关 


双 变 量 相关 可 以 通过 对 于 二 者 之 间 相 关 性 系数 的 计算 ， 分 析 任 意 两 个 变量 的 线性 
相关 程度 。 皮 尔 森 相关 性 系数 是 最 常见 的 用 于 表征 相关 性 大 小 的 变量 。 对 于 任意 两 个 
ARTE X ALY, 其 皮尔 森 相 关 性 系数 计算 方法 如 下 : 


1 a(X,-X/(¥,-¥ 
re Sy I sy ) =n 


r 描述 的 是 两 个 变量 间 线性 相关 强 弱 的 程度 ， 其 范围 是 [-1,1]。r 绝对 值 越 大 表明 
相关 性 越 强 。 式 中 ， 苞 表示 式 的 均值 ， 7 表示 YY 的 均值 ，sx RR X WERNE, sr K 
示 了 的 标准 差 。 

在 为 多 元 线性 回归 选择 合适 的 自 变量 时 ， 我 们 只 需要 先 求 出 所 有 自 变 量 x 和 因 变 
量 了 之 间 的 相关 性 系数 ”， 再 取 绝对 值 较 大 的 几 个 > 对 应 的 自 变量 即 可 。 这 样 选 出 的 
自 变量 可 以 更 好 地 解释 因 变 量 ， 回 归 模 型 效果 更 好 。 具 体 的 操作 步骤 会 在 5.3.3 节 中 
进行 详细 的 讲解 。 





5.3.3 ”SPSS 软 件 中 的 多 元 线性 回归 应 用 案例 


在 计算 机 技术 发 达 的 今天 ， 多 元 回归 分 析 的 计算 已 经 变 得 相当 简单 。 利 用 
SPSS， 只 要 将 有 关 数 据 输入 计算 机 ， 并 指定 因 变 量 和 相应 的 自 变量 ， 立 刻 就 能 得 到 
计算 结果 。 因 此 ， 对 于 从 事 应 用 研究 的 人 们 来 说 ， 更 为 重要 的 是 要 能 够 理解 输入 和 输 
出 之 间 相 互 对 应 的 关系 ， 以 及 对 软件 输出 的 结果 做 出 正确 的 解释 、 分 析 与 评价 。 


5.3.3.1 ”多 元 线性 回归 预测 用 户 信用 等 级 


L 寻找 合适 的 多 元 线性 回归 自 变 量 
(1) 对 用 户 信用 等 级 进行 编码 (因为 回归 分 析 和 双 变量 相关 只 能 处 理 数值 型 变 
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ED) 。 在 菜单 上 依次 选择 “转换 ”一 “重新 编码 为 不 同 变量 ”。 并 通过 输入 旧 值 和 新 值 ， 
把 信用 等 级 编码 为 0 ~ 7 的 数值 型 变量 ， 如 图 5-5 所 示 。 
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图 5-5 单 击 “重新 编码 为 不 同 变量 ” 


(2) 双 变 量 相关 分 析 。 在 菜单 上 依次 选择 “分 析 ” 一 “相关 ”一 “ 双 变 量 ”， 


如 图 5-6 所 示 。 
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5-6 单 击 “ 双 变量 ” 
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(3) 将 所 有 自 变 量 放 入 “变量 (V) ”中 ， 相 关系 数 选 择 “Pearson”， 显 著 性 
检验 选择 “ 双 侧 检验 ”， 单 击 “ 确 定 ”。 


ee ee naD SW aap Bred TARRY SCH me 
S08 > Bid EELE EPEL 已 


1 eaea 











Be) Se MH EATR AP RETA SAWO NETA BAO FE ERF [WANA ae NIRSN 
Ramot a, u Tp u Fimo re 
mle M ool s 
= | a <s amaa xY 
P ar 








re 


图 5-7 双 变 量 相关 对 话 窗 


(4) 在 输出 文件 中 得 到 相关 性 系数 表 ， 如 下 表 所 示 。 找 出 和 信用 等 级 编码 
相关 性 系数 绝对 值 较 大 的 几 个 ， 本 例 中 选取 3 个 ， 即 :， “网 龄 ”“ 前 三 个 月 平均 
MOU”“ 当 月 ARPU” > SANEX xo X X0 


R5-6 相关 性 
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显著 性 
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11069 | 11069 
** 在 0 .01 水 平 〈 双 侧 ) 上 显著 相关 
* 在 0.05 水 平 〈 双 侧 ) 上 显著 相关 
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2. 得 到 多 元 线性 回归 模型 
(1) 在 菜单 上 依次 选择 “分 析 ” 一 “回归 ”一 “线性 ”， 如 图 5-8 所 示 。 


TT 





图 5-8 单 击 “线性 ”进行 回归 分 析 


(2) 在 线性 回归 对 话 框 中 将 “信用 等 级 编码 ” 放 入 因 变 量 ， 依 照 双 变量 相关 选 出 
的 三 个 属性 “网 龄 "“ 当 月 ARPU” 和 “前 三 个 月 平均 MOU” 放 入 自 变量 , 如 图 5-9 所 示 。 
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5-9 ”多 元 线性 回归 分 析 
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(3) 在 输出 文件 中 得 到 “回归 系数 分 析 表 ”， 找 到 自 变量 对 应 的 回归 系数 以 及 
常数 项 ， 如 下 表 所 示 。 双 击 该 表 ， 即 可 得 到 : 常数 项 为 1.399671，“ 网 龄 ”对 应 系数 
为 0.014240，“ 当 月 ARPU” 对 应 系数 为 -5.865939E-4，“ 前 三 个 月 平均 MOU” 对 
应 系数 为 -3.570898E-4( 注 意 ; 表 5-7 显示 的 是 保留 三 位 小 数 的 结果 ) 。 


表 5-7 系数 
非 标准 化 系数 标准 系数 
试用 版 | 
[s1.688 
0.591 |63.897 
-0.027 


| | 


a. =f 信用 等 级 编码 


(4) 通过 上 面 算出 的 总 体 回 归 系 数 ， 即 可 得 到 多 元 线性 回归 的 模型 ， 即 
Y=1.399671+0.014240x,- ( 5.865939E-4 ) x,+ ( 3.570898E-4 ) x, (5-8) 
3. 应 用 该 模型 预测 用 户 信 用 等 级 
(1) 依次 单 击 “ 转 换 ” 一 “计算 变量 ”, 新 建 一 个 叫 “ 信 用 等 级 预测 值 ”的 变量 ， 
其 计算 方法 就 是 应 用 上 一 步 得 到 的 多 元 线性 回归 模型 ， 按 照 〈5-8) 式 算 出 “信用 等 
级 预测 值 ”。 
(2) 单 击 “ 确 定 “ 之 后 , 在 数据 表格 的 最 后 一 列 就 会 出 现 新 的 “信用 等 级 预测 值 ” 
变量 ， 即 为 我 们 利用 多 元 线性 回归 模型 预测 出 来 的 用 户 信 用 等 级 。 
4. 模型 的 解释 与 评价 
在 输出 文件 中 得 到 模型 汇总 表 ， 如 表 5-8 所 示 。 


表 5-8 aoe 


Pa eT mee | satin Torna | 

















a. wR. (HE), WTF MOU, 网 龄 ， 当 月 ARPU。 
b 因 变 量 : 信用 等 级 编码 














此 表 为 所 拟 合 模型 的 情况 汇总 ， 反 映 的 是 多 元 线性 回归 模型 拟 合 的 情况 ， 相 
关系 数 R-0.537, REAM WAKE) R=0.288， 回 归 估 计 的 标准 差 S=1.66390， 
Durbin-Watson=1.452， 模 型 拟 合 效果 很 理想 。 

为 了 进一步 更 直观 地 评价 模型 ， 我 们 可 以 将 预测 出 的 信用 等 级 取 整 ， 然 后 与 原始 
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用 户 信 用 等 级 做 比较 ， 看 看 多 元 回归 分 析 究竟 预测 对 了 多 少 用 户 的 信用 等 级 。 具 体操 
作 步 骤 为 : 先 将 “信用 等 级 预测 值 ” 取 整 后 与 原始 “信用 等 级 ” 作 差 ， 差 值 为 0 即 表 
示 预 测 值 与 实际 值 一 致 ， 差 值 不 为 0 即 表示 预测 值 存在 偏差。 


5.3.3.2 ”多 元 线性 回归 预测 用 户 是 否 流失 


用 户 的 信用 等 级 一 般 为 0-"， 我 们 可 以 把 它 看 作 连 续 变量 。 作 为 一 种 有 预测 功能 
的 算法 ， 回 归 分 析 也 可 以 用 来 预测 用 户 是 否 流失 这 种 二 值 型 变量 。 具 体 的 操作 步骤 与 
预测 用 户 的 信用 等 级 完全 一 致 ， 此 处 不 再 一 一 袭 述 。 简 略 步骤 如 下 : 

(1) 通过 双 变 量 相 关 ， 寻 找 合 适 的 多 元 线性 回归 自 变量 。 相 关 性 系数 绝对 值 最 
大 的 5 个 对 应 的 属性 即 为 本 次 多 元 线性 回归 的 自 变量 。 

(2) 得 到 多 元 线性 回归 模型 ， 即 : 

Pothirrthrthystharathaxs (5-9) 

(3) 应 用 该 模型 预测 用 户 是 否 流失 。 

用 “计算 变量 ”通过 回归 模型 算出 的 预测 结果 全 部 为 小 数 ， 为 连续 性 变量 。 为 了 
得 到 最 终 的 用 户 是 否 流失 这 个 二 值 型 变量 ， 我 们 需要 定义 一 个 阔 值 ， 即 回归 预测 结果 
大 于 该 阐 值 的 我 们 认为 它 会 流失 ， 小 于 该 阔 值 的 我 们 默认 它 不 会 流失 。 





前 面 讨论 过 的 线性 回归 模型 有 这 样 的 特点 ， 即 因 变 量 了 的 均值 E(7) 不 仅 是 自 变 
量 耻 的 线性 函数 ， 而 且 同 时 也 是 参数 ;的 线性 函数 。 但 是 ， 在 现实 问题 中 ， 变 量 之 
间 的 关系 往往 不 是 这 样 的 线性 关系 ， 而 是 非 线性 的 。 变 量 之 间 的 非 线性 回归 模型 可 以 
分 为 三 类 : 

第 一 类 是 变量 为 非 线性 参数 为 线性 的 模型 ， 如 抛物 线 方程 和 双 曲 线 方程 ; 

第 二 类 是 参数 为 非 线性 变量 为 线性 的 模型 ， 如 指数 曲线 方程 ; 

第 三 类 是 变量 和 参数 都 是 非 线性 的 模型 。 

这 三 类 非 线性 模型 的 回归 分 析 是 不 同 的 。 这 里 仅 考虑 可 线性 化 的 非 线性 回归 模 
型 。 在 对 实际 的 经 济 现象 进行 定量 分 析 时 ， 选 择 恰当 的 模型 形式 是 很 重要 的 。 选 择 模 
型 具体 形式 时 , 必须 以 经 济 理论 为 指导 , 使 模型 具体 形式 与 经 济 学 的 基本 理论 相 一 致 ， 
而 且 模 型 必须 具有 较 高 的 拟 合 优 度 和 尽 可 能 简单 的 数学 形式 。 
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5.4.1 非 线性 回归 基本 原理 


对 具有 非 线 性 关系 的 因 变量 与 自 变 量 的 数据 进行 的 回归 分 析 ， 处 理 非 线性 回归 的 
基本 方法 是 : 通过 变量 变换 , 将 非 线 性 回归 化 为 线性 回归 , 然后 用 线性 回归 方法 处 理 。 
假定 根据 理论 或 经 验 ， 已 获得 输出 变量 与 输入 变量 之 间 的 非 线性 表达 式 ， 但 表达 式 的 
系数 是 未 知 的 ， 要 根据 输入 /输出 的 n 次 观察 结果 来 确定 系数 的 值 。 按 最 小 二 乘法 原 
理 来 求 出 系数 值 ， 所 得 到 的 模型 为 非 线 性 回归 模型 。 


5.4.2” 震 函 数 回归 分 析 


宕 函数 模型 的 一 般 形式 为 : 


了 Epoko ee (5-10) 

这 类 函数 的 优点 在 于 : 方程 中 的 参数 可 以 直接 反映 因 变 量 了 对 于 某 一 个 自 变 量 式 

的 弹性 。 所 谓 了 对 于 式 的 弹性 ， 是 指 在 其 他 情况 不 变 的 条 件 下 ， 式 变动 1% 时 所 引起 

了 变动 的 百分比 。 弹 性 是 一 个 无 量 纲 的 数值 ， 它 是 经 济 定量 分 析 中 常用 的 一 个 尺度 。 

它 在 生产 函数 分 析 和 需求 函数 分 析 中 ， 得 到 了 广泛 的 应 用 。 其 中 ， 常 见 的 二 次 、 三 次 
函数 就 是 寡 函 数 的 特例 。 常 见 寡 函 数 如 图 5-10 所 示 。 






























































































































































E| | yee Fx? 
SE x 
3E 
2.55 
Be 4 
1E 
E rae 
UL pfta paapaa ree 
8-7 se: 
-4E 
p IERA 
p 


图 5-10 RRAAR 


2311 


| 232 


大 数据 、 数 据 挖掘 与 智慧 运营 


54.3 ”指数 回归 分 析 


指数 函数 模型 为 : 
Yp A (5-11) 

这 种 曲线 被 广泛 应 用 于 描述 社会 经 济 现象 的 变动 趋势 。 例 如 产值 、 产 量 按 一 定 比 
率 增长 ， 成 本 、 原 材料 消耗 按 一 定 比例 降低 。 

在 移动 运营 商 的 案例 中 ， 服 从 指数 分 布 的 数据 字段 并 不 少见 ， 比 如 用 户 的 投诉 或 
是 流失 率 ， 与 网 络 环境 质量 的 关系 就 近似 服从 指数 分 布 。 因 为 随 着 网 络 质量 的 下 降 ， 
用 户 的 投诉 率 会 上 升 ， 并 且 网 络 质 量 下 降 得 越 多 ， 用 户 的 投诉 率 加 速 上 升 ， 流 失 率 也 
是 一 样 。 常 见 指数 函数 如 图 5-11 Pras: 





















































图 5-11 指数 函数 图 像 


544 ”对 数 回归 分 析 


对 数 函 数 是 指数 函数 的 反 函数 ， 其 方程 形式 为 
Y=B,t+B,In X+e (5-12) 
式 (5-12) H, n 表示 取 自 然 对 数 。 对 数 函 数 的 特点 是 随 着 了 的 增 大 ， 了 的 单位 
变动 对 因 变 量 了 的 影响 效果 不 断 递减 ， 如 图 5-12 所 示 。 
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图 5-12 ”对 数 函 数 图 像 


545 多项式 回归 分 析 


多 项 式 模型 在 非 线性 回归 分 析 中 占有 重要 的 地 位 。 因 为 根据 数学 上 级 数 展 开 的 
原理 ， 任 何 曲线 、 曲 面 、 超 曲面 的 问题 ， 在 一 定 的 范围 内 都 能 够 用 多 项 式 任意 逼近 。 
所 以 ， 当 因 变 量 与 自 变量 之 间 的 确实 关系 未 知 时 ， 可 以 用 适当 笑 次 的 多 项 式 来 近似 
反映 。 

当 所 涉及 的 自 变量 只 有 一 个 时 ， 所 采用 的 多 项 式 方程 称 为 一 元 多 项 式 ， 其 一 般 形 
AWF: 

-potpert patpat (5.13) 

前 面 介绍 过 的 一 元 线性 模型 和 多 元 逻辑 回归 模型 都 是 一 元 多 项 式 模型 的 特例 。 

当 所 涉及 的 自 变 量 在 两 个 以 上 时 ， 所 采用 的 多 项 式 称 为 多 元 多 项 式 。 例 如 ， 二 元 
二 次 多 项 式 模型 的 形式 如 下 : 

Bot Bx t Port prt Brit pxste (5-14) 

Ri, BRNRERS, CR, HAEREA. Alt, EKER 
经 济 定量 分 析 中 ， 尽 量 避 免 采 用 多 元 高 次 多 项 式 。 
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5.4.6” 非 线性 模型 线性 化 和 曲线 回归 








(a=, b>0) (a=1, b<0) 








u=c+bv 
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(a>0, b<0) 


u=c+bv 





(a>0, b>0) (a>0, b<0) 
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5.51 逻辑 回归 基本 原理 


线性 回归 模型 的 一 个 局 限 性 是 要 求 因 变量 是 定量 变量 〈 定 距 变 量 、 定 比 变量 ) 而 
不 能 是 定性 变量 〈 定 序 变 量 、 定 类 变量 ) 。 但 在 许多 实际 问题 中 ， 经 常 出 现 因 变 量 是 
定性 变量 (分 类 变量 ) 的 情况 。 可 用 于 处 理 分 类 因 变 量 的 统计 分 析 方法 有 : 判别 分 别 、 
逻辑 回归 分 析 和 对 数 线性 模型 等 。 

逻辑 回归 和 多 重 线性 回归 实际 上 有 很 多 相似 之 处 ， 最 大 的 区 别 就 在 于 它们 的 因 变 
量 不 同 。 正 因为 如 此 ， 这 两 种 回归 可 以 归 为 同一 个 家 族 ， 即 广义 线性 模型 。 这 一 家 族 
的 模型 形式 基本 都 差不多 ， 不 同 的 就 是 因 变量 不 同 。 

@ 如 果 是 连续 的 ， 就 是 多 重 线性 回归 ; 

© 如 果 是 二 项 分 布 ， 就 是 逻辑 回归 ; 

© 如 果 是 泊 松 分 布 ， 就 是 泊 松 回归 ; 

@ 如 果 是 负 二 项 分 布 ,就 是 负 二 项 回归 。 

而 逻辑 回归 ， 根 据 因 变量 的 取 值 不 同 ， 又 可 分 为 二 元 逻辑 回归 和 多 元 逻辑 回归 。 
二 元 逻辑 回归 中 的 因 变 量 只 能 取 1 和 0 两 个 值 〈 虚 拟 因 变 量 ) ， 而 多 元 逻辑 回归 中 的 
因 变 量 可 以 取 多 个 值 多 分 类 问题 ) 。 下 面 将 讲述 逻辑 回归 的 具体 步骤 和 数学 方法 。 


5.5.1.1 Logistic 函数 


逻辑 回归 虽然 名 字 里 带 “ 回 归 ”, 但 它 实际 是 一 种 分 类 方法 , 主要 用 于 二 分 类 问题 。 
它 利用 了 Logistic 函数 〈 或 称 为 Sigmoid 函数 ) ， 其 函数 形式 为 : 
1 
l+e” 
Logistic 函数 有 个 很 漂亮 的 “S” 型 ， 如 图 5-13 所 示 。 
对 于 线性 边界 的 情况 ， 边 界 形式 如 下 : 





g(z)= (5-15) 


Otan +--+, =P Ox, = Ox (5-16) 
i=l 
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构造 预测 函数 为 : 
1 
和 CD- 8(0 0) = r (5-17) 
1 
| 
| 
| 0.5 
L 0 i 
-6 -4 -2 0 2 4 6 


图 5-13 Logistic 函数 图 像 


函数 hy (x) 的 值 有 特殊 含义 ， 它 表示 结果 取 1 的 概率 ， 因 此 对 于 输入 x 的 分 类 
结果 为 1 和 0 的 概率 分 别 为 : 
P(y=1|x;0) = h(x) 
PO =0|x-8) =1—h, (x) (5-18 
55.12 ”损失 函数 


在 构造 完成 预测 函数 之 后 ， 我 们 需要 构造 损失 函数 J。 基 于 最 大 似 然 估计 可 以 推 
导 得 到 Cost 函数 和 J 函数 。 


log[h ,y=1 
Cost[h, (x), n= {Ce A p i (5-19) 


JO)=—Y Costfh (s), z] -=H logis) += y lot | (5-20) 
i=l i=l 

下 面 详细 说 明 推导 过 程 。 

之 前 讲述 的 概率 函数 综合 起 来 可 以 写成: 


PO |20) = [ho OP L- h (5-21) 
取 似 然 函数 为 : 
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LO)=TIPo :0 TTP he (5-2) 
对 数 似 然 函数 为 : 
10)=IogL(O)= Slogh CG) +(1~ y,)loglt~hy(x,)}} (523) 


最 大 似 然 估计 就 是 求 使 7 (0) 取 最 大 值 时 的 2， 其 实 这 里 可 以 使 用 梯度 上 升 法 求 
解 ， 求 得 的 9 就 是 要 求 的 最 佳 参数 。 但 是 ， 若 将 了 (90) 取 为 下 式 ， 即 : 


J(0)= -=1(0) (5-24) 


因为 乘 了 一 个 负 的 系数 ~ 二， 所 以 取 J (0) 最 小 值 时 的 6 为 要 求 的 最 佳 参数 。 
5.5.1.3 ”梯度 下 降 法 








9 更 新 过 程 : 
are, -a ©) (5-25) 
% 
5 ig 1 1 
A oris hy (x,)-(1 n) h), A | 
lz il. 36 = 
3 ig (5)—(1— ara g(0"x,) 
= 1 9 r r 
7 gery glo x) 5, ee wy ei sf lial dra (5.26) 
-2 [1-8 (6"x,)]-(-»,)e(0"x)}x/ 
ae?) (0°x,)]x/ 
CORAN 
0 更 新 过 程 也 可 以 写成 : 


le 
0-8-0 2 tho) HH (5-27) 


| 238 


大 数据 、 数 据 挖掘 与 智慧 运营 


552 ”二 元 逻辑 回归 


逻辑 回归 需要 做 的 ， 就 是 利用 一 系列 包括 Logistic 函数 在 内 的 数学 表达 式 或 方法 
建立 回归 模型 。 进 一 步 说 ， 也 就 是 用 历史 数据 对 分 类 边界 建立 回归 公式 ， 依 此 边界 进 
行 二 元 或 是 多 元 的 分 类 。 

图 5-14 为 二 元 逻辑 回归 的 线性 决策 边界 的 实例 ， 图 中 的 曲线 也 就 是 逻辑 回归 希 
望 求 得 的 模型 结果 。 








图 5-14 逻辑 回归 模型 


5.5.3 ”多 元 逻辑 回归 





多 元 逻辑 回归 与 二 元 逻辑 回归 十 分 相似 ， 唯 一 的 不 同 点 就 在 于 : 多 元 逻辑 回归 
的 因 变量 是 多 值 的 ， 比 如 用 户 的 信用 等 级 可 以 分 为 1 ~ 5 星 级 和 金 银 钻 卡 ， 而 二 元 
逻辑 回归 的 因 变量 只 能 为 二 值 型 变量 ， 比 如 用 户 是 否 购 买 终端 或 用 户 是 否 流失 。 由 
于 其 数学 分 析 方法 较为 复杂 ， 但 在 软件 中 的 实现 却 简单 很 多 ， 在 此 不 再 更 述 多 元 逻 
辑 回归 的 数学 表达 及 证 明 方 法 ， 在 下 一 节 将 重点 讲述 逻辑 回归 在 SPSS 软件 中 的 实 
际 应 用 。 


5.5.4 SPSS 软 件 中 的 逻辑 回归 应 用 案例 


1. 界面 介绍 
在 菜单 上 选择 “分 析 ” 一 “回归 ”一 “二 元 Logistic”， 系 统 弹出 的 逻辑 回归 参 
数 设 置 窗口 如 图 5-15 所 示 。 
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fà Logistic BE x 











图 5-15 “逻辑 回归 ”对 话 窗 


左 侧 是 候选 变量 框 ， 右 上 和 角 是 应 变量 框 ， 选 入 二 分 类 的 应 变量 ， 下 方 的 协 变量 杠 
是 用 于 选 入 自 变量 的 ， 只 不 过 这 里 按 国 外 的 习惯 被 称 为 协 变量 。 中 下 部 的 “> a*b >” 
框 是 用 于 选 入 交互 作用 的 ， 功 能 性 不 强 ， 此 处 不 再 详细 展开 。 下 方 的 “方法 M) ” 
列表 框 用 于 选择 变量 进入 方法 ， 有 进入 法 、 前 进 法 和 后 退 法 三 大 类 ， 三 类 之 下 又 有 细 
分 。 右 边 的 四 个 按钮 中 ，“ 选 项 ”较为 重要 ， 此 处 作 详细 讲解 ， 如 图 5-16 所 示 。 





@ Logistic BE: BH x 
wiena 
ELT] D 个 计 值 的 相关 性 (R) 
W Hosmer-Lemeshow Ma tp) © 千代 历史 记录 四 
oO; RAMON) Bepe 9 % 
例外 页 群情 (0) 2 eae 
ORNI 
‘a 
leantsecq 口 在 最 后 一 个 步 要 中 () 
sang asmau Gs 
BAW pe BIW p10 Peet bo | 
EMT EIEN) 
(wis) ea sm 


图 5-16 逻辑 回归 “选项 ”对 话 框 


上 图 中 ，“ 统 计量 和 图 ”中 的 “分 类 图 ”是 非常 重要 的 模型 预测 工具 ，“ 估 计 值 
的 相关 性 ” 则 是 重要 的 模型 诊断 工具 ，“ 和 迭代 历史 记录 ”可 以 看 到 迭代 的 具体 情况 ， 
从 而 得 知 模型 是 否 在 迭代 时 存在 病态 ， 下 方 则 可 以 确定 进入 和 排除 的 概率 标准 ， 这 在 
逐步 回归 中 是 非常 有 用 的 。 
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2. 实 操 步 又 

因 变 量 设置 为 “是 否 流 失 ”， 自 变量 设置 为 “前 三 个 月 平均 MOU”“ 前 三 月 平 
均 DOU” 和 “前 三 个 月 平均 ARPU”, “方法 ”设置 为 默认 的 “进入 ”, 单 击 “确定 ”， 
如 图 5-17 所 示 。 


i LAS | wg) RACY) BA En, 
图 5-17 “逻辑 回归 ” 实 操 图 


表 5-9 ”案例 处 理 汇 总 


未 选 定 的 案例 
上 表 为 记录 处 理 情况 汇总 ， 即 有 多 少 案例 记录 被 纳入 下 面 的 分 析 ， 可 见 此 处 因 不 
存在 缺失 值 ，11069 条 记录 均 纳入 了 分 析 ， 表 5-10 中 为 SPSS 软件 对 逻辑 回归 的 分 析 。 
块 0: 起 始 块 
表 5-10 SRR 























b. 切割 值 为 0 500 
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此 处 已 经 开始 了 拟 合 , 块 0 拟 合 的 是 只 有 常数 的 无 效 模 型 ， 上 表 为 分 类 预测 表 ， 
可 见 在 6504 例 观察 值 为 0 的 记录 中 , 共有 6504 例 被 预测 为 0, 4565 例 1 也 都 被 预测 为 0 
总 预测 准确 率 为 58.8%， 这 是 不 纳入 任何 解释 变量 时 的 预测 准确 率 ， 相 当 于 比较 
基线 。 


表 5-11 方程 中 的 变量 


B SE, Wals Sig. Exp (B) 
步骤 0 | 常量 -0.354 0.019 336.137 0.000 0.702 








ERA 0 的 变量 系数 ， 可 见 常数 的 系数 值 为 -0.354。 
R512 不 在 方程 中 的 变量 


[|| wm | so | 
TA se hh om | 
yi o E fon J 
[wsmwam ls |r mw | 


上 表 为 在 块 0 处 尚未 纳入 分 析 方 程 的 候选 变量 ， 所 做 的 检验 表示 如 果 分 别 将 它 
们 纳入 方程 ， 则 方程 的 改变 是 否 会 有 显著 意义 (根据 所 用 统计 量 的 不 同 ， 可 能 是 拟 合 
优 度 、 方 差 值 等 ) 。 可 见 如 果 将 “前 三 个 月 平均 MOU” 这 一 变量 纳入 方程 ， 则 方程 
的 改变 是 有 显著 意义 的 ，“ 前 三 个 月 平均 ARPU” 这 一 变量 也 是 如 此 ， 由 于 Stepwise 
方法 (逐步 阶梯 法 ) 是 一 个 一 个 的 进入 变量 ， 下 一 步 将 会 先 纳入 得 分 最 高 的 变量 ， 然 
后 再 重新 计算 该 表 ， 再 做 选择 。 

块 人 方法 = 输入 





表 5-13 ”模型 系数 的 综合 检验 














此 处 开始 了 块 1 的 拟 合 ， 根 据 我 们 的 设 定 ， 采 用 的 方法 为 Forward《〈 我 们 只 设 定 
了 一 个 块 ， 所 以 后 面 不 会 再 有 块 2) 。 上 表 为 全 局 检验 ， 对 步骤 1 做 了 步骤 、 块 和 模 
型 的 检验 。 
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表 5-14 PRR? 


百分比 校正 














a. 切割 值 为 0.500 
上 表 为 经 过 块 1 的 预测 情况 汇总 ， 可 见 准确 率 由 块 0 的 58% 上 升 到 了 67%， 效 
果 有 比较 明显 的 提升 。 
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关联 分 析 是 一 种 简单 、 实 用 的 分 析 技 术 ， 用 来 发 现存 在 于 大 量 数据 集中 的 关联 
性 或 相关 性 ， 从 而 描述 一 个 事物 中 某 些 属性 同时 出 现 的 规律 和 模式 。 本 章 6.1 节 使 用 
了 关联 分 析 中 一 个 非常 典型 的 例子 一 一 购物 篮 事务 ， 向 读者 形象 地 阐述 了 关联 分 析 是 
什么 。6.2 节 介 绍 衡量 关联 强度 的 度量 标准 以 及 衡量 算法 优 劣 的 复杂 度 指标 。6.3 节 介 
绍 Apriori 算法 规则 以 及 生成 规则 过 程 中 用 到 的 频繁 项 集 、 先 验 原理 、 基 于 支持 度 前 
枝 、 候 选项 集 产 生 和 基于 置信 度 剪 枝 的 概念 。6.4 节 介 绍 频繁 模式 树 的 生成 规则 ， 并 
与 Apriori 算法 进行 了 性 能 对 比 。6.5 节 介绍 如 何在 SPSS 软件 中 使 用 关联 算法 分 析 数 据 。 





关联 分 析 (Association Analysis) 用 于 发 现 隐藏 在 大 型 数据 集中 的 有 意义 的 联系 。 
所 发 现 的 联系 可 以 用 关联 规则 (Association Rule) 或 频繁 项 集 的 形式 表示 。 例 如 ， 从 
表 6-1 所 示 的 数据 中 可 以 提取 如 下 规则 : 
{尿布 } 一 {啤酒 } 
该 规则 表明 尿布 和 啤酒 的 销售 之 间 存在 着 很 强 的 联系 ， 因 为 许多 购买 尿布 的 顾客 
也 购买 啤酒 。 零 售 商 们 可 以 使 用 这 类 规则 ， 帮 助 他 们 发 现 新 的 交叉 销售 商机 。 


表 6-1 购物 篮 事务 的 例子 


{牛奶 ， 尿 布 ， 啤 酒 ， 可 乐 } 
{面包 ， 和 牛奶， 尿布 ， 啤 酒 } 
{面包 FH, RH, WH} 











除了 购物 篮 数据 外 ,关联 分 析 也 可 以 应 用 于 其 他 领域 , 如 生物 信息 学 、 医 疗 诊断 、 
网 页 挖掘 和 科学 数据 分 析 等 。 例如 ,在 地 球 科学 数据 分 析 中 ， 关联 模式 可 以 揭示 海洋 、 
陆地 和 大 气 过 程 之 间 的 有 趣 联系 。 这 样 的 信息 能 够 帮助 地 球 科学 家 更 好 地 理解 地 球 系 
统 中 不 同 的 自然 力 之 间 的 相互 作用 。 尽 管 这 里 提供 的 技术 一 般 都 可 以 用 于 更 广泛 的 数 
据 集 ， 但 为 了 便于 解释 ， 讨 论 将 主要 集中 在 购物 篮 数据 上 。 

商业 企业 在 日 复 一 日 的 运营 中 积聚 了 大 量 的 数据 。 例 如 ， 食 品 商店 的 收银 台 每 天 
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都 收集 大 量 的 顾客 购物 数据 。 表 6-1 给 出 一 个 这 种 数据 的 例子 ， 通 常 称 作 购物 篮 事 务 

(market basket transaction) 。 表 中 每 一 行 对 应 一 个 事务 ， 包 含 一 个 唯一 标识 TID 和 
给 定 顾客 购买 的 商品 的 集合 。 零 售 商 对 分 析 这 些 数据 很 感 兴趣 ， 以 便 了 解 他 们 的 顾客 
的 购买 行为 。 可 以 使 用 这 种 有 价值 的 信息 来 支持 各 种 商务 应 用 ， 如 市 场 促销 、 库 存 管 
理 和 顾客 关系 管理 等 。 

在 对 购物 篮 数据 进行 关联 分 析 时 ， 需 要 处 理 两 个 关键 的 问题 : 第 一 ， 从 大 型 事务 
数据 集中 发 现 模式 可 能 在 计算 上 要 付出 很 高 的 代价 ;第 二 ， 所 发 现 的 某 些 模式 可 能 是 
虚假 的 ， 因 为 它们 可 能 是 偶然 发 生 的 。 这 就 需要 一 些 评估 指标 了 。 

关联 规则 是 形 如 = 了 的 蕴含 表达 式 ， 了 著 和 了 是 不 相交 的 项 集 ， 即 站 Y= 儿 。 
关联 规则 的 强度 可 以 用 它 的 支持 度 和 置信 度 度 量 。 支 持 度 确定 规则 可 以 给 定数 据 集 的 
频繁 程度 ， 而 置信 度 确 定 了 在 包含 的 事务 中 出 现 的 频繁 程度 。 


什么 样 的 关联 规则 值得 关注 呢 ? 要 讨论 这 个 问题 就 必须 提 到 几 个 评估 指标 。 首 先 
来 介绍 两 个 概念 : 项 集 和 支持 度 计数 。 

项 集 令 Bih b es ty WARA PRANKS, MTh bs e t 
是 所 有 事务 的 集合 。 每 个 事务 包含 的 项 集 都 是 了 的 子 集 。 在 关联 分 析 中 ， 包 含 0 个 
或 多 个 项 的 集合 被 称 为 项 集 (item set) 。 如 果 一 个 项 集 包 含 天 个 项 ， 则 称 它 为 大 项 集 。 
例如 ，{ 啤酒 ， 尿布， 牛奶 } 是 一 个 3- 项 集 。 空 集 是 指 不 包含 任何 项 的 项 集 。 

支持 度 计数 事务 的 宽度 定义 为 事务 中 出 现 项 的 个 数 。 如 果 项 集 开 是 事务 ! 的 子 集 ， 
则 称 事务 + 包括 项 集 X。 例 如 ， 在 表 6-2 中 第 二 个 事务 包括 项 集 { 面包 ， 尿 布 }， 但 
不 包括 项 集 { 面包 ， 牛 奶 }。 项 集 的 一 个 重要 性 质 是 它 的 支持 度 计 数 ， 即 包含 特定 项 
集 的 事务 个 数 。 数 学 上 ， 项 集 卫 的 支持 度 计 数 o。(X) 可 以 表示 为 式 (6-1) : 

o(X)=|{tlXEt, tieT}| (6-1) 

其 中 ， 符 号 | + | 表示 集合 中 元 素 的 个 数 。 在 表 6-2 显示 的 数据 集中 ， 项 集 { 啤酒 ， 
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尿布 ， 牛 奶 } 的 支持 度 计数 为 2， 因 为 只 有 2 个 事务 同时 包含 这 3 个 项 。 
支持 度 〈s) 的 形式 定义 如 式 〈6-2) : 


o(XUY) 
N 


s(X¥ >Y)= (6-2) 








[ f 6.1) 


如 上 面 举 的 例子 ， 考 虑 规则 { 牛奶 ， 尿布 } 一 { 啤酒 }。 由 于 项 集 { 牛奶 ， 尿布， 
啤酒 } 的 支持 度 计 数 是 2， 而 事务 的 总 数 是 5， 所 以 规则 的 支持 度 为 2/5=0.4。 

为 什么 使 用 支持 度 ? 支持 度 是 一 种 重要 度量 ， 因 为 支持 度 很 低 的 规则 可 能 只 是 偶 
然 出 现 。 从 商务 角度 来 看 ， 低 支持 度 的 规则 多 半 也 是 无 意义 的 ， 因 为 对 顾客 很 少 同 时 
购买 的 商品 进行 促销 可 能 并 无 益处 。 因 此 ， 支 持 度 通常 用 来 删 去 那些 无 意义 的 规则 。 
此 外 ， 支 持 度 还 具有 一 种 期 望 的 性 质 ， 可 以 用 于 关联 规则 的 有 效 发 现 。 





6.2.2 置信 和 度 


置信 度 〈c) 的 形式 定义 如 式 (6-3) : 


ok >= (6-3) 








[ Bi] 6.2} 


如 例 [ 6.1 ] 中 ,规则 的 置信 度 是 项 集 { 牛 奶 , 尿布 ,啤酒 } 的 支持 度 计 数 与 项 集 { 牛 
奶 ， 尿布 } 支持 度 计 数 的 商 。 由 于 存在 3 个 事务 同时 包含 牛奶 和 尿布 ， 所 以 该 规则 的 
置信 度 为 2/3=0.67。 

为 什么 使 用 置信 度 ? 

置信 度 度量 通过 规则 进行 推理 具有 可 靠 性 。 对 于 给 定 的 规则 XY, HRAD, 
了 在 包含 下 的 事务 中 出 现 的 可 能 性 就 越 大 , 置信 度 也 可 以 估计 了 在 给 定 卫 下 的 条 件 概 率 。 





623 算法 复杂 度 


同一 问题 可 用 不 同 算法 解决 ， 而 一 个 算法 的 质量 优 劣 将 影响 到 算法 乃至 程序 的 效 
率 。 算 法 分 析 的 目的 在 于 选择 合适 的 算法 和 改进 算法 。 算 法 评价 主要 应 从 时 间 复 杂 度 
和 空间 复杂 度 两 方面 来 考虑 。 
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一 个 算法 执行 所 耗费 的 时 间 ， 从 理论 上 是 不 能 算出 来 的 ， 必 须 上 机 运行 测试 才能 
知道 。 但 我 们 不 可 能 也 没有 必要 对 每 个 算法 都 上 机 测试 ， 而 只 需 知道 哪个 算法 花费 的 
时 间 多 、 哪 个 算法 花费 的 时 间 少 就 可 以 了 。 并 且 一 个 算法 花费 的 时 间 与 算法 中 语句 的 
执行 次 数 近似 成 正比 ， 哪 个 算法 中 语句 执行 次 数 多 ， 它 花费 时 间 就 多 。 一 个 算法 中 的 
语句 执行 次 数 称 为 语句 频 度 或 时 间 频 度 ， 记 为 了 a) 。 算 法 的 时 间 复 杂 度 是 指 执行 
算法 所 需要 的 计算 工作 量 。 

在 刚才 提 到 的 时 间 频 度 中 ，n 称 为 问题 的 规模 ， 当 n 不 断 变 化 时 ， 时 间 频 度 了 C) 
也 会 不 断 变化 。 但 有 时 我 们 想 知道 它 变化 时 呈现 什么 规律 。 为 此 ， 我 们 引入 时 间 复 杂 
度 概念 。 

一 般 情 况 下 , 算法 中 基本 操作 重复 执行 的 次 数 是 问题 规模 n 的 某 个 函数 , FAT Cn) 
表示 ， 若 有 某 个 辅助 函数 /(n) ,使 得 当 n 趋 近 于 无 穷 大 时 ，7T (n) f C) 的 极限 值 
为 不 等 于 零 的 常数 ， 则 称 f Cn) 是 了 Cn) 的 同 数量 级 函数 。 记 作 了 Cn) =f Cn) J 
BK OLS Cn) | 为 算法 的 渐进 时 间 复杂 度 ， 简 称 时 间 复 杂 度 。 

在 各 种 不 同 算法 中 , 若 算 法 中 语句 执行 次 数 为 一 个 常数 , 则 时 间 复杂 度 为 o (1) 
另外 ， 在 时 间 频 度 不 相同 时 ， 时 间 复 杂 度 有 可 能 相同 ， 如 T (n) =m+3n+4 与 7 Cn) 
=47+2n+1， 它 的 频 度 不 同 ， 但 时 间 复 杂 度 相同 ， 都 为 CO) 。 

与 时 间 复 杂 度 类 似 ， 空 间 复杂 度 是 指 算法 在 计算 机 内 执行 时 所 需 存储 空间 的 度 
Æ. WE: S (n) =o[f (n) ]。 

算法 执行 期 间 所 需要 的 存储 空间 包括 3 个 部 分 : 

(1) 算法 程序 所 占 的 空间 ; 

(2) 输入 的 初始 数据 所 占 的 存储 空间 ; 

(3) 算法 执行 过 程 中 所 需要 的 额外 空间 。 

在 许多 实际 问题 中 ， 为 了 减少 算法 所 占 的 存储 空间 ， 通 常 采 用 压缩 存储 技术 。 


6.3.1 频繁 项 集 的 定义 与 产生 


在 讨论 Apriori 算法 之 前 ， 必 须 提 到 频繁 项 集 的 概念 。 
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频繁 项 集 (frequent item set) : 满足 最 小 支持 度 阔 值 的 所 有 项 集 ， 这 些 项 集 称 作 
频繁 项 集 。 
大 多 数 关 联 规则 挖掘 算法 通常 采用 的 一 种 策略 是 ， 将 关联 规则 挖掘 任务 分 解 为 如 
下 两 个 主要 的 子 任务 。 
(1) 频繁 项 集 产生 : 其 目标 是 发 现 满足 最 小 支持 度 阔 值 的 所 有 项 集 , 即 频 繁 项 集 。 
(2) 规则 的 产生 : 其 目标 是 从 上 一 步 发 现 的 频繁 项 集中 提取 所 有 高 置信 度 的 规 
则 ， 这 些 规 则 称 作 强 规则 (strong rule) 。 
通常 ， 频 繁 项 集 产 生 所 需 的 计算 开销 远大 于 产生 规则 所 需 的 计算 开销 。 
怎么 产生 频繁 项 集 呢 ? 格 结构 (lattice structure) 常常 被 用 来 枚 举 所 有 可 能 的 项 集 。 
图 6-1 Shas F{a, b, c, d, e) 的 项 集 格 。 一 般 来 说 ， 一 个 包含 上 个 项 的 数据 集 可 能 
产生 21 个 频繁 项 集 ， 不 包括 空 集 在 内 。 由 于 在 许多 实际 应 用 中 大 的 值 可 能 非常 大 ， 
需要 探查 的 项 集 搜索 空间 可 能 是 指数 规模 的 。 





图 6-1 项 集 的 格 


发 现 频繁 项 集 的 一 种 原始 方法 是 确定 格 结构 中 每 个 候选 项 集 (candidate item 
set) 的 支持 度 计 数 。 为 了 完成 这 一 任务 ， 必 须 将 每 个 候选 项 集 与 每 个 事务 进行 比较 ， 
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如 图 6-2 所 示 。 如 果 候选 项 集 包 含 在 事务 中 ， 则 候选 项 集 的 支持 度 计数 增加 。 例 如 ， 
由 于 项 集 { 面包 ， 牛 奶 } 出 现在 事务 1、4 和 5 中 ， 其 支持 度 计 数 将 增加 3 次 。 这 
种 方法 的 开销 可 能 非常 大 ， 因 为 它 需 要 进行 。(NMw) 次 比较 ; 其 中 六 是 事务 数 ; 
M=2'-] 是 候选 项 集 数 ， 而 w 是 事务 的 最 大 宽度 。 


事务 候选 

TD 项 集 

1 面包 牛奶 
2 
3 
4 
5 




















面包 ， 尿 布 ， 啤 酒 ， 鸡 蛋 
牛奶 ， 尿 布 ， 啤 酒 ， 可 乐 
Hil, FH, BRAG, 
i, FY, BRA, ALAR 












































图 6-2 计算 候选 项 集 的 支持 度 


有 两 种 方法 可 以 降低 产生 频繁 项 集 的 计算 复杂 度 : 

(1) 减少 候选 项 集 的 数目 M) 。 接 下 来 要 介绍 的 先 验 (Apriori) 原理 ， 是 一 
种 不 用 计算 支持 度 值 而 删除 某 些 候选 项 集 的 有 效 方 法 。 

(2) 减少 比较 次 数 。 替 代 将 每 个 候选 项 集 与 每 个 事务 相 匹配 ， 可 以 使 用 更 高 级 
的 数据 结构 ， 或 者 存储 候选 项 集 或 者 压缩 数据 集 ， 来 减少 比较 次 数 。 


6.3.2 HARE 


本 节 描 述 如 何 使 用 支持 度 度量 ， 帮 助 减少 频繁 项 集 产生 时 需要 探查 的 候选 项 集 个 
数 。 使 用 支持 度 对 候选 项 集 剪 枝 基 于 如 下 原理 。 

定理 6.1: 先 验 原理 ， 如 果 一 个 项 集 是 频繁 的 ， 则 它 的 所 有 子 集 一 定 也 是 频繁 的 。 

为 了 解释 先 验 原理 的 基本 思想 ， 考 虑 图 6-3 所 示 的 项 集 格 。 假 定 {c d, e} 
是 频繁 项 集 。 显 而 易 见 ， 任 何 包 含 项 集 {fc，qd，e} 的 事务 一 定 包含 它 的 子 集 {c, d}, 
{c, e}, {d, e}, {c}, {d} 和 {e}. XH, MR {c, d, ce} 是 频繁 的 ， 则 它 的 所 有 子 
SE (图 6-3 中 的 阴影 项 集 ) 一 定 也 是 频繁 的 。 

相反 ， 如 果 项 集 {a, b) 是 非 频繁 的 ， 则 它 的 所 有 超 集 也 一 定 是 非 频 繁 的 。 因 此 
一 旦 发 现 {a, b} 是 非 频 繁 的 ， 则 整个 包含 {a，b} 超 集 的 子 图 可 以 被 立即 剪 枝 。 如 
图 6-3 所 示 。 
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图 6-3 先 验 原理 的 图 示 


WR {c，4，e} 是 频繁 的 ， 则 它 的 所 有 子 集 也 是 频繁 的 。 


633 ”基于 支持 度 的 计数 与 剪 枝 


在 上 面 我 们 提 到 过 ， 如 果 项 集 {a，b} 是 非 频 繁 的 ， 则 它 的 所 有 超 集 也 一 定 是 非 
频繁 的 。 如 图 6-4 所 示 ， 一 旦 发 现 {a, b) 是 非 频繁 的 ， 则 整个 包含 (a, b) 超 集 的 子 
图 可 以 被 立即 剪 枝 。 这 种 基于 支持 度 度量 修剪 指数 搜索 空间 的 策略 称 为 基于 支持 度 的 
剪 枝 〈support-basedpruning) 。 这 种 剪 枝 策略 依赖 于 支持 度 度量 的 一 个 关键 性 质 ， 即 
一 个 项 集 的 支持 度 决 不 会 超过 它 的 子 集 的 支持 度 。 这 个 性 质 也 称 支 持 度 度量 的 反 单调 
性 Canti-monotone) 。 

定理 6.2: 单调 性 令 T 是 项 的 集合 ， 太 2 是 了 的 寡 集 。 度 量 ./ 是 单调 的 《或 向 上 封 
闭 的 ) ， 如 果 

WX, Ye J: (Xc Y> SO (6-4) 

WOR XE YEE, WP OO 一 定 不 超过 f O 。 另 一 方面 ， 是 反 单 调 

的 (或 向 下 封闭 的 ) ， 如 果 
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WX, Ye J: (Xc Y)> [VLX (6-5) 
ROR XE YIN, WD 一 定 不 超过 三 CD 。 





非 频繁 项 集 


图 6-4 基于 支持 度 的 剪 枝 的 图 示 


WAR {a, b) 是 非 频繁 的 ， 则 它 的 所 有 超 集 也 是 非 频 繁 的 。 
任何 存在 反 单 调 性 的 度量 都 能 够 直接 结合 到 挖掘 算法 中 ， 可 以 对 候选 项 集 的 指数 
搜索 空间 进行 有 效 的 前 枝 。 


6.3.4 ”候选 项 集 生成 


Apriori 算法 是 第 一 个 关联 规则 挖掘 算法 ， 它 开创 性 地 使 用 基于 支持 度 的 前 枝 技 
术 ， 系 统 地 控制 候选 项 集 指 数 增长 。 对 于 表 6-1 中 所 示 的 事务 ， 图 6-5 给 出 Apriori 
算法 频繁 项 集 产 生 部 分 的 一 个 高 层 实 例 。 假 定 支持 度 阔 值 是 60%， 相 当 于 最 小 支持 
度 计数 为 3。 

初始 时 每 个 项 都 被 看 作 候 选 1- 项 集 。 对 它们 的 支持 度 计数 之 后 ， 候 选项 集 { 可 
乐 } 和 { 鸡蛋 } 被 丢弃 ， 因 为 它们 出 现 的 事务 少 于 3 个 。 在 下 一 次 欠 代 , 仅 使 用 频繁 
1- 项 集 来 产生 候选 2- 项 集 ， 因 为 先 验 原理 保证 所 有 非 频繁 的 1- 项 集 的 超 集 都 是 非 频 
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繁 的 。 由 于 只 有 4 个 频繁 1- 项 集 ， 因 此 算法 产生 的 候选 2- 项 集 的 数目 为 C4-6。 计 算 
它们 的 支持 度 值 之 后 , 发 现 这 6 个 候选 项 集中 的 2 个 一 一 { 啤酒 , 面包 } 和 {啤酒 , 牛奶 } 
是 非 频繁 的 。 剩 下 的 4 个 候选 项 集 是 频繁 的 ， 因 此 用 来 产生 候选 3- 项 集 。 不 使 用 基 
于 支持 度 的 剪 枝 ， 使 用 该 例 给 定 的 6 个 项 ， 将 形成 Ce=20 个 候选 3- 项 集 。 依 据 先 验 
原理 ， 只 需要 保留 其 子 集 都 频繁 的 候选 3- 项 集 。 具 有 这 种 性 质 的 唯一 候选 是 { 面包 ， 










































































尿布 ， 牛 奶 } 。 
候选 1- 项 集 
项 计数 
啤酒 3 
面包 4 
WR 2 
尿布 4 最 小 支持 度 计数 -3 
牛奶 4 
鸡蛋 候选 2- 项 集 
项 集 计数 
(We, 面包} | 2 
{ 啤 酒 ， 尿 布 } 3 
(nee, 牛奶} | 2 
{面包 ， 尿 布 } 3 
因 支 持 度 低 而 被 删除 的 项 集 | 《面包 ， 和 牛奶 } 3 
{尿布 ， 牛 奶 } 3 
候选 3- 项 集 
TE 计数 
{ 面 包 ， 尿 布 ， 牛 奶 } | 3 











6-5 ”使 用 Apriori 算法 产生 频繁 项 集 的 例子 


通过 计算 产生 的 候选 项 集 数 目 ， 可 以 看 出 先 验 剪 枝 策略 的 有 效 性 。 枚 举 所 有 项 集 
(到 3- 项 集 ) 的 蛮 力 策略 将 产生 Gi+HCs+Ce=6+15+20=41 个 候选 ， 而 使 用 先 验 原理 ， 
将 减少 为 CHC#H+1=6+6+1=13 个 候选 。 甚 至 在 这 个 简单 的 例子 中 ， 候 选项 集 的 数目 也 


降低 了 68%。 


算法 6.1 中 给 出 了 Apriori 算法 产生 频繁 项 集 部 分 的 伪 代 码 。 令 C, 为 候选 k- 项 集 


的 集合 ， 而 Fi 为 频繁 万 项 集 的 集合 ， 算 法 细节 如 下 所 述 。 


(1) 该 算法 初始 通过 单 遍 扫 描 数据 集 ， 确 定 每 个 项 的 支持 度 。 一 旦 完成 这 一 步 ， 


就 得 到 所 有 频繁 1- 项 集 的 集合 五 〈 步 又 1 和 步骤 2) 。 
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(2) 接 下 来 , 该 算法 将 使 用 上 一 次 迭代 发 现 的 频繁 (k-1) - 项 集 , PAE BT ARIE k- 
ME GPRS) 。 候 选 的 产生 使 用 apriori-gen 函数 实现 ， 将 在 后 面 章节 进行 介绍 。 
(3) 为 了 对 候选 项 的 支持 度 计 数 ， 算 法 需要 再 次 扫描 一 遍 数据 集 (步骤 6- 步骤 
10) 。 使 用 子 集 函 数 确定 包含 在 每 一 个 事务 ! 中 的 G 中 的 所 有 候选 大 项 集 。 计 算 候选 项 
的 支持 度 计数 之 后 ， 算 法 将 删 去 支持 度 计数 小 于 最 小 支持 度 的 所 有 候选 项 集 步骤 12) 。 
(4) 当 没有 新 的 频繁 项 集 产生 , 即 R=9 时 ， 算 法 结束 〈( 步 又 13) 。 

Apriori 算法 的 频繁 项 集 产生 的 部 分 有 两 个 重要 的 特点 : 第 一 ， 它 是 一 个 逐 层 
Clevel-wise) 算法 ， 即 从 频繁 1- 项 集 到 最 长 的 频繁 项 集 , 它 每 次 遍历 项 集 格 中 的 一 层 ; 
第 二 ， 它 使 用 产生 - 测试 (generate-and-test) 策略 来 发 现 频繁 项 集 。 在 每 次 迭代 之 后 ， 
新 的 候选 项 集 都 由 前 一 次 迭代 发 现 的 频繁 项 集 产生 ， 然 后 对 每 个 候选 的 支持 度 进行 计 
数 ， 并 与 最 小 支持 度 阔 值 进行 比较 。 该 算法 需要 的 总 迭代 次 数 是 ,+1， 其 中 hg FE 
频繁 项 集 的 最 大 长 度 。 





算法 6.1 Apriori 算法 的 频繁 项 集 产 生 


输入 : 数据 集 ; 
输出 : 频繁 项 集 ; 
Begin 
Lk=1; 
ILF {ili € roli) > NX minsup} { 发 现 所 有 的 频繁 1- 项 集 }， 
JILRepeat; 
IV. k=k+1; 
VC apriori-gen(F,) — {产生 候选 项 集 }; 
VI. For 每 个 事务 t © TDo; 
VILCFsubset(Cx ){ 识别 属于 上 的 所 有 候选 }; 
VIIFor 每 个 候选 项 集 c © C, Do; 
IX. o(c)= o(c)+1 { 支持 度 计数 增值 }; 
X.EndFor; 
XI.Endfor; 
XILF={clc E C/o([c]) = NX minsup} { 提取 频繁 太 项 集 y; 
XILUntilF=0O; 
XIV.Result = U F,. 
END 
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算法 6.1 步骤 5 的 apriori-gen 函数 通过 如 下 两 个 操作 产生 候选 项 集 : 
(1) 候选 项 集 的 产生 。 该 操作 由 前 一 次 迭代 发 现 的 频繁 (1)- 项 集 产 生 新 的 
候选 大 项 集 。 
(2) 候 选项 集 的 剪 枝 。 该 操作 采用 基于 支持 度 的 剪 枝 策略 , 删除 一 些 候选 大 项 集 。 
为 了 解释 候选 项 集 剪 枝 操作 ， 考 虑 候选 项 集 算法 必须 确定 它 的 所 有 真子 集 
了 一刀}1(W=1，2，…， 甩 是否 都 是 频繁 的 ， 如 果 其 中 一 个 是 非 频 繁 的 ， 则 半 将 会 
被 立即 剪 枝 。 这 种 方法 能 够 有 效 地 减少 支持 度 计数 过 程 中 所 考虑 的 候选 项 集 的 数量 。 
对 于 每 一 个 候选 k- 项 集 ， 该 操作 的 复杂 度 是 O(k) 。 然 而 ， 随 后 我 们 将 明白 ， 并 不 
需要 检查 给 定 候选 项 集 的 所 有 个 子 集 。 如 果 丰 个 子 集中 的 m 个 用 来 产生 候选 项 集 ， 
则 在 候选 项 集 剪 枝 时 只 需要 检查 剩 下 的 km 个 子 集 。 
理论 上 ， 存 在 许多 产生 候选 项 集 的 方法 。 下 面 列 出 了 对 有 效 的 候选 项 集 产 生 过 程 
的 要 求 : 
d) 它 应 当 避 免 产 生 太 多 不 必要 的 候选 。 一 个 候选 项 集 是 不 必要 的 ， 如 果 它 至 少 
有 一 个 子 集 是 非 频繁 的 。 根 据 支持 度 的 反 单 调 属性 ， 这 样 的 候选 项 集 肯 定 是 非 频 繁 的 。 
Q) 它 必 须 确保 候选 项 集 的 集合 是 完全 的 ， 即 候选 项 集 产生 过 程 没有 遗漏 任 
何 频繁 项 集 。 为 了 确保 完全 性 ， 候 选项 集 的 集合 必须 包含 所 有 频繁 项 集 的 集合 ， 即 
VER EG 
G) 它 应 该 不 会 产生 重复 候选 项 集 。 例 如 : 候选 项 集 {a，b，c，q} 可 能 会 通过 
多 种 方法 产生 , 如 合并 {a, b, c} 和 {d}, 合并 {b, d} 和 {a, ch, 合并 {c} 和 fa, b, 
dy 等 。 候 选项 集 的 重复 产生 将 会 导致 计算 的 浪费 ， 因 此 为 了 效率 应 该 避免 。 
接 下 来 , 将 简要 地 介绍 几 种 候选 产生 过 程 ,其 中 包括 apriori-gen 函数 使 用 的 方法 。 
1. 变 力 方法 
蛮 力 方法 把 所 有 的 大 项 集 都 看 作 可 能 的 候选 ， 然 后 使 用 候选 剪 枝 除去 不 必要 的 
候选 ( 见 图 6-6) 。 第 大 层 产生 的 候选 项 集 的 数目 为 05， 其 中 4 是 项 的 总 数 。 虽 然 候 
选 产生 是 相当 简单 的 ， 但 候选 剪 枝 的 开销 极 大 ， 因 为 必须 考察 的 项 集 数量 太 大 。 设 每 
一 个 候选 项 集 所 需 的 计算 量 O (1 ， 这 种 方法 的 总 复杂 度 为 O( 了 ,KC!) = 02), 
2. 五 ,Xx 五 方法 
另 一 种 的 产生 候选 项 集 的 方法 是 用 其 他 频繁 项 来 扩展 每 个 频繁 (大 1)- 项 集 。 图 6-7 
显示 了 如 何 用 频繁 项 (如 面包 ) 扩 展 频繁 2- 项 集 { 啤酒, 尿布 }, 产生 候选 3- 项 集 { 啤 酒 ， 


尿布 ， 面 包 }。 这 种 方法 将 产生 CC2. 上 | 及- E D ARE k N, H E 表示 频繁 六 
项 集 的 个 数 。 这 种 方法 总 复杂 度 是 C(2,E| 玉 :1 五 ) 。 
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候选 前 枝 
项 集 
{ 面 包 ， 尿 布 ， 牛 奶 } 




















尿布 {面包 可乐， 尿布 } 
































{可 乐 ， 尿 布 ， 鸡 蛋 } 
{可 乐 ， 牛 奶 ， 鸡 蛋 } 
{尿布 ， 牛 奶 ， 鸡 蛋 } 


图 6-6 产生 候选 3- 项 集 的 蛮 力 方法 









































频繁 2- 项 集 
项 集 

{啤酒 ， 尿 布 } 候选 产生 

{面包 ， 尿 布 } 项 集 候选 前 梳 

{面包 ， 和 牛奶} 1 啤酒， 尿布， 面包} 项 集 

Uem, E) {啤酒 ， 尿 布 ， 牛 奶 } | 一 >| 《面包 ， 尿 布 ， 牛 奶 } 




















>) {面包 尿布， 牛奶 } 
频繁 1- 项 集 {面包 牛奶， 啤酒 } 



































图 6-7 通过 合并 频繁 大 ) - 项 集 和 频繁 1- 项 集 生成 和 剪 枝 候选 大 项 集 
注意 : 某 些 候选 是 不 必要 ， 因 为 它们 的 子 集 是 非 频繁 的 
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这 种 方法 是 完备 的 ， 因 为 每 一 个 频繁 k- 项 集 都 是 由 一 个 频繁 (及 1) - 项 集 和 一 
个 频繁 1- 项 集 组 成 的 。 因 此 ， 所 有 的 频繁 k- 项 集 是 这 种 方法 所 产生 的 候选 k- 项 集 的 
一 部 分 。 然 而 ， 这 种 方法 很 难 避 免 重 复 地 产生 候选 项 集 。 例 如 ， 项 集 { 面包 ， 尿 布 ， 
牛奶 } 不 仅 可 以 由 合并 项 集 { 面包 ， 尿布 } 和 {牛奶} 得到， 而且 还 可 以 由 合并 { 面 
包 ， 牛 奶 } 和 { 尿布} 得到， 或 者 由 合并 { 尿布 ， 牛 奶 } 和 { 面包 } 得到。 避免 产生 
重复 的 候选 项 集 的 一 种 方法 是 确保 每 个 频繁 项 集中 的 项 以 字典 序 存储 , 每 个 频繁 (大 )- 
项 集 了 只 用 字典 序 比 卫 中 所 有 的 项 都 大 的 频繁 项 进行 扩展 。 例如 , 项 集 { 面包 , 尿布 } 
可 以 用 项 集 { 牛奶 } 扩展， 因为 “牛奶 ” Mik) 在 字典 序 下 比 “ 面 包 ” (Bread) 
和 “尿布 ” (Diapers) 都 大 。 然 而 ， 不 应 当 用 { 面包 } 扩展 { 尿布 ， 牛 奶 } 或 用 { 尿 
布 } 扩展 { 面包 ， 牛 奶 }， 因 为 它们 违反 了 字典 序 条 件 。 

尽管 这 种 方法 比 蛮 力 方法 有 明显 改进 ， 但 仍 会 产生 大 量 不 必要 的 候选 。 例 如 ， 通 
过 合并 { 啤酒 ， 尿 布 } 和 { 牛奶 } 而 得 到 的 候选 是 不 必要 的 ， 因 为 它 的 一 个 子 集 { 啤 
酒 ， 牛 奶 } 是 非 频 繁 的 。 有 几 种 启发 式 方法 能 够 减少 不 必要 的 候选 数量 。 例 如 ， 对 
于 每 一 个 幸免 于 剪 枝 的 候选 k- 项 集 ， 它 的 每 一 个 项 必须 至 少 在 K-14 Ch-1) -项 
集中 出 现 ， 和 否则 ， 该 候选 就 是 非 频繁 的 。 再 例如 ， 项 集 { 啤酒 ， 尿 布 ， 牛 奶 } 是 
一 个 可 行 的 候选 3- 项 集 ， 仅 当 它 的 每 一 个 项 〈 包 括 “ 啤 酒 ”) 都 必须 在 两 个 频繁 2- 
项 集中 出 现 。 由 于 只 有 一 个 频繁 2- 项 集 包含 “啤酒 ”， 因 此 所 有 包含 “啤酒 ”的 
候选 都 是 非 频 繁 的 。 

3. FX Fy FE 

函数 apriori-gen 的 候选 产生 过 程 合并 一 对 频繁 〈 上 1) - 项 集 ， 仅 当 它 们 的 前 k-2 
个 项 都 相同 。 令 Alas an», api} 和 B={b1，b,,… ，bi} 是 一 对 频繁 Cl) -项 
集 ， 合 并 4 和 BB， 如 果 它 们 满足 如 下 条 件 : 

a=b, (i=1, 2, =, k-2) #Ha,#R, 

在 图 6-7 中 , 频繁 项 集 { 面包, 尿布 } 和 { 面包 , 牛奶 } 合 并, 形成 了 候选 3- 项 集 { 面 
包 ， 尿 布 ， 牛 奶 }。 算 法 不 会 合并 项 集 { 啤酒 ， 尿 布 } 和 { 尿布 ， 牛 奶 }， 因 为 它们 
的 第 一 个 项 不 相同 。 实 际 上 , 如 果 { 啤酒 , 尿布 , 牛奶 } 是 可 行 的 候选 , 则 它 应 当 由 { 啤 
酒 ， 尿 布 } 和 { 啤酒 ， 牛 奶 } 合并 得 到 。 这 个 例子 表明 了 候选 项 产生 过 程 的 完全 
性 和 使 用 字典 序 避 免 重复 候选 的 优点 。 然 而 ， 由 于 每 个 候选 都 由 一 对 频繁 l) - 
项 集合 并 而 成 ， 因 此 需要 附加 的 候选 剪 枝 步骤 来 确保 该 候选 的 其 余 k-2 个 子 集 是 频 
繁 的 。 
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635 ”基于 置信 度 的 剪 枝 


不 像 支持 度 度量 , 置信 度 不 具有 任何 单调 性 。 例 如: 规则 了 > 了 的 置信 和 度 可 能 大 于 、 
小 于 或 等 于 规则 子 一 了 的 置信 和 度 ， 其 中 子 cC 了 上 且 YC 了。 尽管 如 此 ， 当 比较 由 频繁 项 
集 了 产生 的 规则 时 ， 下 面 的 定理 对 置信 度 度 量 成 立 。 

定理 6.2: 如 果 规 则 了 > 六 XY 不 满足 置信 和 度 阔 值 ， 则 形 如 一 YY-X 的 规则 一 定 也 
AR EE, HP XE XIN. 

为 了 证 明 该 定理 ， 考 虑 如 下 两 个 规则 : X’SY-X'o(Yo(X') Al XY-X. PPM 
则 的 置信 和 度 分 别 为 VAX’) 和 VX). HF XYE XIE, MA X’) > oO。 
因此 ， 前 一 个 规则 的 置信 度 不 可 能 大 于 后 一 个 规则 。 


6.3.6 Apriori 算 法 规则 生成 


Apriori 算法 使 用 一 种 逐 层 方法 来 产生 关联 规则 ， 其 中 每 层 对 应 于 规则 后 件 中 的 
项 数 。 初 始 ， 提 取 规 则 后 件 只 含 一 个 项 的 所 有 高 置信 度 规则 ， 然 后 ， 使 用 这 些 规则 来 
产生 新 的 候选 规则 。 例 如 ， 如 果 {acd} 一 { 和 {abd} 一 {c} 是 两 个 高 置信 度 的 规则 ， 
则 通过 合并 这 两 个 规则 的 后 件 产生 候选 规则 {ad} 一 {bc}。 图 6-8 显示 了 由 频繁 项 集 
{a, b, c, d} 产生 关联 规则 的 格 结构 。 如 果 格 中 的 任意 结 点 具有 低 置信 度 ， 则 根据 
定理 6.2， 可 以 立即 前 掉 该 结 点 生成 的 整个 子 图 。 假 设 规则 {bed} 一 {a} 具有 低 置信 
E, 则 可 以 丢弃 后 件 包含 a 的 所 有 规则 , 包括 {cd} 一 {ab}, {bd} — {ac}, {bc} + {ad} 
和 {d} — {abc}. 






低 置信 度 规则 








6-8 ”使 用 置信 度 度量 对 关联 规则 进行 剪 枝 
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算法 6.2 和 算法 6.3 给 出 了 关联 规则 产生 的 伪 代 码 。 注 意 ， 算 法 6.3 中 的 ap- 
genrules 过 程 与 算法 6.1 中 的 频繁 项 集 产生 的 过 程 类 似 。 二 者 唯一 的 不 同 是 : 在 规则 
产生 时 ， 不 必 再 次 扫描 数据 集 来 计算 候选 规则 的 置信 度 ， 而 是 使 用 在 频繁 项 集 产 生 时 
计算 的 支持 度 计数 来 确定 每 个 规则 的 置信 度 。 





算法 6.2 ”Apriori 算法 中 的 规则 产生 


Begin 

L For 4 —* 40% k- HE fo k> 2 Do: 
ILH {ili © 内 {规则 的 1- 项 后 件 } 
HI.Call ap-genmles(f:, Hi); 

IV. EndFor。 

End 


算法 6.3 过程 ap-genrules(f,, Hp) 





LEEA { 频繁 项 集 的 大 小 }; 
ILm=|H,| { 规则 后 件 的 大 小 }; 
IIL.If A>m+1 then; 
IV.Ap..=apriori-gen(H»); 

VFor 每 个 lma E Aner DOs 

VI. conf=o(f/ Oe hms); 

VIL. If conf > min conf Then; 
VIILoutput: 规则 ihm) > hms: 
IX. Else; 

X. M H, delete hn; 

XI. End If; 

XII. End For; 

XIII Call ap-genrules(f Hp); 
XIVEnd If. 
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6.4 FP-tree 算法 ; 





6.4.1 频繁 模式 树 


你 用 过 搜索 引擎 会 发 现 这 样 一 个 功能 : 输入 一 个 单词 或 者 单词 的 一 部 分 ， 搜 索引 
人 擎 就 会 自动 补 全 查询 词 项 ， 用 户 甚至 都 不 知道 搜索 引擎 推荐 的 东西 是 否 存在 ， 反 而 会 
去 查找 推荐 词 项 ， 比 如 在 百度 输入 “为 什么 ”开始 查询 时 ， 会 出 现 诸 如 “为 什么 我 有 
了 变 身 器 却 不 能 变 身 奥 特 曼 ”之 类 滑 移 的 推荐 结果 。 为 了 给 出 这 些 推荐 查询 ， 搜 索引 
擎 公司 的 研究 人 员 使 用 了 FP-tree 算法 ， 他 们 通过 查看 互联 网 上 的 用 词 来 找 出 经 常 在 
一 块 出 现 的 词 对 , 这 需要 一 种 高 效 发 现 频繁 集 的 方法 ,FP-tree 算 法 比 Apriori 算 法 要 快 ， 
它 基 于 Apriori 构建 ， 但 在 完成 相同 任务 时 采用 了 一 些 不 同 的 技术 。 不 同 于 Apriori 算 
法 的 “产生 - 测试 ”， 这 里 的 任务 是 将 数据 集 存储 在 一 个 特定 的 称 作 FP 树 的 结构 之 
后 发 现 频繁 项 集 或 者 频繁 项 对 ， 即 常 在 一 块 出 现 的 元 素 项 的 集合 FP 树 , 这 种 做 法 使 
算法 的 执行 速度 要 快 于 Apriori， 通 常 性 能 要 好 两 个 数量 级 以 上 。 

频繁 模式 树 (Frequent Pattern tree, FP-tree) ， 是 满足 下 列 条 件 的 一 个 树 结构 : 
它 由 一 个 根 结 点 〈 值 null) 、 项 前 缀 子 树 〈 作 为 子女 ) 和 一 个 频繁 项 头 表 组 成 。 项 前 
级 子 树 中 的 每 个 结 点 包括 三 个 域 ，item_name、count 和 node link, HP: 

(1) item_name 记录 结 点 表示 的 项 的 标识 ; 

(2) count 记录 到 达 该 结 点 的 子路 径 的 事务 数 ; 

(3) node link 用 于 连接 树 中 相同 标识 的 下 一 个 结 点 ， 如 果 不 存在 相同 标识 下 一 
个 结 点 ， 则 值 为 “null”。 

FP 树 是 一 种 输入 数据 的 压缩 表示 ， 它 通过 逐个 读 入 事务 ， 并 把 事务 映射 到 FP 树 
中 的 一 条 路 径 来 构造 。 由 于 不 同 的 事务 可 能 会 有 若干 个 相同 的 项 ， 因 此 它们 的 路 径 可 
能 部 分 重 登 。 路 径 相 互 重 麦 越 多 ， 使 用 FP 树 结构 获得 的 压缩 效果 越 好 。 如 果 FP 树 
足够 小 ， 能 够 存放 在 内 存 中 ， 就 可 以 直接 从 这 个 内 存 中 的 结构 提取 频繁 项 集 ， 而 不 必 
重复 地 扫描 存放 在 硬盘 上 的 数据 。 如 表 6-2 显示 的 数据 集 , CAA 10 个 事务 和 5 个 项 。 
(可 以 把 一 条 事务 直观 理解 为 超市 的 顾客 购物 记录 ， 我 们 利用 算法 来 发 据 那 些 物品 或 
物品 组 合 频繁 地 被 顾客 所 购买 。) 


261 | 


| 262 


大 数据 、 数 据 挖掘 与 智慧 运营 


表 6-2 事务 数据 集 


| 
1 
2 
3 
4 
5 
6 
7 
8 
9 
po 


























图 6-9 绘制 了 读 入 三 个 事务 之 后 的 FP 树 的 结构 以 及 最 终 完成 构建 的 FP 树 ， 初 始 ， 
FP 树 仅 包含 一 个 根 结 点 ， 用 符号 null 标记 ， 随 后 ， 用 如 下 方法 扩充 FP 树 : 














图 6-9 构建 FP 树 过 程 


通常 ，FP 树 的 大 小 比 未 压缩 的 数据 小 ， 因 为 购物 篮 数据 的 事务 常常 共享 一 些 共 
同 项 ， 在 最 好 的 情况 下 ， 所 有 的 事务 都 具有 相同 的 项 集 ，FP 树 只 包含 一 条 结 点 路 径 ; 
当 每 个 事务 都 具有 唯一 项 集 时 ， 导 臻 最 坏 情况 发 生 ， 由 于 事务 不 包含 任何 共同 项 ， 
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FP 树 的 大 小 实际 上 与 原 数据 的 大 小 一 样 。 然 而 ， 由 于 需要 附加 的 空间 为 每 个 项 存放 
结 点 间 的 指针 和 技术 ，FP 树 的 存储 需求 增 大 。 

FP 树 还 包含 一 个 连接 具有 相同 项 的 结 点 的 指针 列表 ， 这 些 指针 在 图 6-9 中 用 虚 
线 表 示 ， 有 助 于 快速 访问 树 中 的 项 。 


6.4.2 ”FP-tree 算 法 频繁 项 集 的 产生 


首先 我 们 来 了 解 几 个 定义 : 

(1) 支持 度 : LAFL, L 在 事务 数据 库 D 所 占 的 百分比 。 

(2) 频繁 项 目 集 : 对 于 项 目 集 L 和 事务 数据 库 D， 所 有 满足 用 户 指定 的 最 小 支 
持 度 的 项 目 集 。 

(3) 在 频繁 项 目 集中 所 有 不 被 其 他 元 素 包含 的 频繁 项 目 集 。 

举例 来 说 ， 在 如 下 项 目 集中 ， 表 6-3 表示 了 依照 对 应 的 后 绷 排 序 的 频繁 项 集 。 

假设 用 户 规定 支持 度 为 2。 


表 6-3 HART ALA SHE HRANE 





讨论 项 目 A: A 出 现 的 次 数 有 3 次 ， 大 于 2， 属 于 频繁 项 目 集 。 

讨论 项 目 AB: AB 出 现 次 数 也 是 3 次 ， 大 于 2， 也 属于 频繁 项 目 集 。 
类 似 的 ， 出 现 次 数 大 于 等 于 用 户 支 持 度 的 项 目 集 都 称 为 频繁 项 目 集 。 寻找 最 大 频 
繁 项 目 集 : 首先 列举 所 有 项 目 集 {A, B, C, D, E, AB, AC, AD, BC, BD, 
BE，CD，CE，ABC，ABD，ACD，BCE，ABCD}， 按 照 最 大 频繁 项 目 集 的 定义 ， 
ABCD, BCE 都 没有 被 其 他 元 素 包 含 , 所 以 最 大 频繁 项 目 集 为 {ABCD，BCE}。 反 之 ， 
ABC 被 ABCD 包含 ， 所 以 它 并 不 是 最 大 频繁 项 目 集 。 


6.4.3 ”FP-tree 算 法 规则 生成 


接 下 来 我 们 来 谈 谈 FP-tree 算法 的 具体 规则 。 
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表 6-3 展示 了 一 个 数据 集 ， 它 包含 10 个 事务 和 5 个 项 。 图 6-9 绘制 了 读 入 前 3 
个 事务 之 后 FP 树 的 结构 。 树 中 每 一 个 结 点 都 包括 一 个 项 的 标记 和 一 个 计数 ， 计 数 显 
示 映 射 到 给 定 路 径 的 事务 个 数 。 开 始 ，FP 树 仅 包含 一 个 根 结 点 ， 用 符号 null 标记 。 
随后 ， 用 如 下 方法 扩充 FP 树 : 

(1) 扫描 一 次 数据 集 ， 确 定 每 个 项 的 支持 度 计 数 。 丢 弃 非 频繁 项 ， 而 将 频繁 项 按 
照 支 持 度 递 减 排序 。 对 于 图 中 的 数据 集 ，a 是 最 频繁 的 项 ， 接 下 来 依次 是 5»，c,，d File. 

(2) 算法 第 二 次 扫描 数据 集 ， 构 建 FP 树 。 读 入 第 一 个 事务 {a,b} 之 后 ， 创 建 
标记 为 a 和 5b 的 结 点 。 然 后 形成 null 到 a FE b 的 路 径 ， 对 该 事务 编码 。 该 路 径 上 
的 所 有 结 点 的 频 度 计数 为 1。 

(2) 读 入 第 二 个 事务 {b, c, d Zia, AUS, c 和 4 创建 新 的 结 点 集 。 然 后 ， 
连接 结 点 null 一 bp 一 c 一 4， 形 成 一 条 代表 该 事务 的 路 征 。 该 路 径 上 的 每 个 结 点 的 频 度 
计数 也 等 于 1。 尽 管 前 两 个 事务 具有 一 个 共同 项 5，， 但 它们 的 路 径 不 相交 ， 因 为 这 两 
个 事务 没有 共同 的 前 绥 。 

(4) 第 三 个 事务 (a, c, d, ce} 与 第 一 个 事务 共享 一 个 共同 前 缀 项 a， 所 以 第 三 
个 事务 的 路 径 null 一 a 一 c 一 4 一 e 与 第 一 个 事务 的 路 径 null 一 a 一 b MOBS. AWE 
的 路 径 重 又 ， 所 以 结 点 a 的 频 度 计数 增加 为 2， 而 新 创建 的 结 点 c，q 和 e 的 频 度 计 
数 等 于 1。 

(5) 继续 该 过 程 ， 直 到 每 个 事务 都 映射 到 FP 树 的 一 条 路 径 。 读 入 所 有 的 事务 
后 形成 的 FP 树 显示 在 底部 。 

此 外 ， 对 于 包含 在 FP-tree 中 某 个 结 点 上 的 项 a， 将 会 有 一 个 从 根 结 点 到 达 a 的 
路 径 ， 该 路 径 中 不 包含 a 所 在 结 点 的 部 分 路 径 称 为 a WATR, a 称 为 该 路 径 的 
后 级 。 在 一 个 FP-tree 中 ， 有 可 能 有 多 个 包含 a 的 结 点 存在 ， 其 中 每 个 包含 a 的 结 点 
可 以 形成 a 的 一 个 不 同 的 前 级 子路 径 ， 所 有 的 这 些 路 径 组 成 a 的 条 件 模 式 基 。 


6.44 算法 性 能 对 比 与 评估 


这 个 例子 解释 了 FP 增长 算法 中 使 用 的 分 治 方法 ， 每 一 次 递归 ， 都 要 通过 更 新 前 
绷 路 径 中 的 支持 度 计 数 和 删除 非 频繁 的 项 来 构建 条 件 FP 树 ， 由 于 子 问题 不 相交 ， 因 
此 FP 增长 不 会 产生 任何 重复 的 项 集 ， 此 外 ， 与 结 点 相关 联 的 支持 度 计数 允许 算法 在 
产生 相同 的 后 缀 项 时 进行 支持 度 计 数 。FP 增长 是 一 个 有 趣 的 算法 ， 它 展示 了 如 何 使 
用 事务 数据 集 的 压缩 表示 来 有 效 地 产生 频繁 项 集 ， 此 外 对 于 某 些 事务 数据 集 ，FP 增 
长 算法 比 标准 的 Apriori 算法 要 快 几 个 数量 级 ，FP 增长 算法 的 运行 性 能 取决 于 数据 集 
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的 “压缩 因子 ”。 如 果 生 成 的 FP 树 非常 茂盛 〈 在 最 坏 的 情况 下 ， 是 一 颗 完全 二 又 树 ) 
则 算法 的 性 能 显著 下 降 ， 因 为 算法 必须 产生 大 量 的 子 问题 ， 并 且 需 要 合并 每 个 子 问题 
返回 的 结果 。 


本 节 将 介绍 一 个 基于 Apriori 算法 的 关联 分 析 实 例 。 本 节 用 到 的 软件 是 SPSS 
Modeler 自 带 的 关联 分 析 数 据 ， 关 联 分 析 用 到 的 数据 集 是 SPSS Modeler 自 带 的 关联 分 
析 数 据 。 具 体 步骤 如 下 : 

(1) 打 开 并 查看 数据 文件 。 利用 “可 变 文件 ” 结 点 将 “Demos” 下 的 “BASKETS1n” 
添加 结 点 中 。 然 后 使 用 “输出 ”选项 卡 下 的 “ 表 ” 查 看 数据 ， 如 图 6-10 所 示 。 这 里 
的 数据 是 某 商场 中 的 购买 记录 ， 共 18 个 字段 ，1000 条 记录 ， 在 后 面 的 列 中 ， 值 “T” 
表示 已 购买 该 商品 ， 值 “F” 表 示 没 有 购买 该 商品 。 
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图 6-10 “K” A0 


(2) 确定 关联 分 析 字 段 。 本 例 中 ， 需 要 对 购买 商品 进行 关联 分 析 ， 即 确定 客户 
购买 商品 之 间 是 否 存在 关联 性 ， 也 就 是 说 客户 在 购买 一 种 商品 时 ， 购 买 另 一 种 商品 的 
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概率 是 多 少 。 所 以 ， 在 这 里 ， 将 选择 记录 中 能 够 体现 是 否 购买 某 商品 的 字段 进行 关联 
分 析 ， 因 此 采用 的 是 18 个 字段 的 后 11 个 字段 。 其 中 有 fruitveg，freshmeat，dairy， 
cannedveg, canned meat, frozen meal, beer, wine, soft drink, fish, confectionery. 

G) 读 入 分 析 字 段 的 类 型 。 在 工作 区 生成 “类 型 ” 结 点 ， 并 双击 “编辑 ”， 将 
上 一 步骤 选 出 的 11 个 字段 的 角色 设 定 为 “两 者 ”， 如 图 6-11 与 图 6-12 所 示 。 














图 6-11 添加 “类 型 ” 结 点 的 工作 窗口 


(4) 添加 模型 结 点 。 分 别 在 “类 型 ”之 后 添加 “Apriori” 模 型 结 点 , 如 图 6-13 所 示 。 
其 中 ，“Apriori” 模 型 是 基于 “最 低 支 持 度 ” 和 “最 小 置信 度 ” 进 行 关联 性 分 析 。 

G) 运行 并 查看 “Apriori ”关联 模型 结果 。 运 行 “Apriori ”模型 的 数据 流 ， 在 
右上 侧 生成 数据 模型 ， 通 过 单 击 右键 查看 ， 如 图 6-14 所 示 。 通 过 窗口 可 以 看 出 ， 客 
户 同时 购买 fozenmeal、beer、cannedveg 的 概率 很 高 。 因 此 ， 商 家 可 以 将 这 三 种 商品 
放 在 相 邻 的 位 置 ， 以 促进 销量 。 
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图 6-12 “类 型 ” 结 点 编辑 窗口 
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图 6-13 工作 窗口 的 “Apriori” 模 型 
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图 6-14 “Apriori” 窗 口 模型 查看 器 


(6) 利用 “网 络 ”图 进行 定性 关联 分 析 。 选 定 “ 类 型 ” 结 点 ， 双 击 “ 图 形 ” 选 
项 卡 下 的 “网 络 ”， 即 可 添加 “网 络 结 点 ”。 然 后 ， 需 双击 编辑 “网 络 ” 结 点 ， 将 步 
BRS) 中 选择 的 11 个 字段 选 定 为 分 析 字 段 。 运 行 该 “网 络 ” 结 点 ， 则 右上 区 域 生成 
关联 模型 ， 查 看 该 关联 模型 ， 如 图 6-15 所 示 。 图 6-15 表明 ， 两 点 之 间 的 线 越 粗 ， 表 
示 两 者 相关 性 越 强 。 同 时 可 以 通过 调节 下 面 的 滑动 点 ， 查 看 其 相关 性 。 


| 
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图 6-15 “网 络 ” 模 型 查看 窗口 


[1] 


[2] 


B] 


[4] 


[5] 


[6] 


(7] 
[8] 


[9] 


第 6 章 关联 分 析 





R. Agrawal and R. Srikant. Fast Algorithms for Mining Association Rules. In VLDB Conference, 
1994. 

R. Aerawaland R. Srikant. Minine Seauential Uatterns:Generalizations and Performance 
Improvements. In EDBT,1996. 

E. G. Coffrnan and 1. Eve. File Structures Using Hashing Functions. Comm. Assoc. Comp. 
Mach., 1970. 

L. Dehaspe, H. Toivonen, and R. King. Finding Frequentsubstruclures in Chemical Compounds. 
In KDD. 1998. 

S. Djoko et al. Analyzing the Benefits of Domain Knowledge in Substructure Discovery. In 
KDD, 1995. 

Dougherty, R.Kohavi. and M. Sahami. Supervised and Unsupervised Discretization of 
Continuous Features. In ICML, 1995. 

A. Lain and R. Dubs.Algorithms for Clustering Data. Prentice Hall, 1988. 

Kim et al. Identification of Navel Multi-transmembrane Proteins from Genomic Databases Using 
Quasi-periodic Structural Properties. In Bioinformarics, 2002. 

R. King et al. Genome Scale Prediction of Protein Functional Class from Sequence Using Data 
Mining. In KDD, 2000. 


[10] K. Kaperski. I. Han, and N. Stefanovic. An Efficient Two-step Method for Classification of 


Spatial Data. In Proceedings ofthe I d . Symposium on Spatial Data Handling, 1998. 


[11] H. Li and S. Parthasarathy. Automatically Deriving Multi-level Protein Structures Through 


Data Mining. In HiPC Conference Workhop on Bioinformnrics and Computational Biology, 
Hyderabad, India, 2001. 


[12] H. Mannila and H. Toivonen. Discovering Generalized Episodes Using Minimal Occurrences. In 


KDD, 1996. 


[13] W. Pan. 1. Lin. and C. Le. Model-based Cluster Analysis of Microarray Gene-expression Data. 


Genome Biology, 2002. 


[14] S. Parthasarathy and M. Coatney. Efficient Discovery of Common Substructures in 


Macromolecules. Technical Re-port OSU-CISRC-8/02-TR20. Ohio State University, 2002. 


269 | 


1270 


> 


大 数据 、 数 据 挖掘 与 智慧 运营 


[15] S. Parthasarathy et al. Incremental and Interactive Sequence Mining. In ACM CIKM, 1999. 

[16] Quinlan. Induction of Decision Trees. Machine Learning,5 (1) :71-100, 1996.1191 L. D. 
Raedt and S. Kramer. The Level-wise Version Space Algorithm and Its Application to Molecular 
Fragment Finding.In JCA1, 2001. 

[17] X. Wang et al. Automated Discovery of Active Motifs in Three Dimensional Molecules. In KDD, 
1997. 


增强 型 数据 挖掘 算法 


1 272 


大 数据 、 数 据 挖掘 与 智慧 运营 


本 书 介绍 过 的 分 类 算法 ， 除 最 近邻 算法 以 外 都 是 从 训练 数据 得 到 一 个 分 类 器 ， 然 
后 再 使 用 这 个 分 类 器 去 预测 未 知 样本 的 类 标号 。 本 节 将 再 介绍 一 些 可 以 提高 分 类 准确 
率 的 技术 。 这 些 技术 聚集 了 多 个 分 类 器 的 预测 ， 称 为 组 合 (Ensemble) 方法 。 


7.11 组 合 方法 的 优势 


考虑 上 个 二 元 分 类 器 的 组 合 ， 其 中 每 个 分 类 器 的 误差 为 e， 组 合 分 类 器 通过 对 
这 些 及 分 类 器 的 预测 进行 多 数 表 决 的 方法 来 预测 检验 样本 的 类 标号 。 首 先 ， 先 考虑 
一 个 极端 情况 ， 就 是 所 有 基 分 类 器 都 相同 ， 这 时 ， 组 合 分 类 器 对 基 分 类 器 预测 错误 
的 样本 误 分 类 组 合 分 类 器 的 错误 率 同样 也 是 s。 考 虑 一 般 情 况 ， 假 设 基 分 类 器 互相 
独立 ， 即 它们 的 误差 不 相关 。 只 要 多 于 一 半 的 基 分 类 器 预测 正确 ， 组 合 分 类 器 就 能 
够 做 出 正确 的 预测 。 即便 是 超过 一 半 的 基 分 类 器 预测 错误 ， ee ee 


seme EGe'd-2", 也 远 低 于 基 分 类 器 的 误差 率 ， sn, EA 的 最 小 
整数 。 


7.1.2 构建 组 合 分 类 器 的 方法 


构建 组 合 分 类 器 的 基本 思想 是 ， 先 构建 多 个 分 类 器 ， 称 为 基 分 类 器 ， 然 后 通过 
对 每 个 基 分 类 器 的 预测 进行 投票 来 进行 分 类 。 下 面 介绍 几 种 构建 组 合 分 类 器 的 方法 。 

1. 处 理 训练 数据 集 

这 种 方法 通过 对 原始 数据 进行 再 抽样 来 得 到 多 个 不 同 的 训练 集 ， 然 后 ， 使 用 某 一 
特定 的 学 习 算 法 为 每 个 训练 集 建议 一 个 分 类 器 。 对 原始 数据 再 抽样 时 ， 遵 从 一 种 特定 
的 抽样 原则 ， 这 种 原则 决定 了 某 一 样本 选 为 训练 集 的 可 能 性 的 大 小 。 后 面 章 节 中 介绍 
的 装 袋 (Bagging) 和 提升 (Boosting) 就 是 两 种 处 理 训练 数据 集 的 组 合 方法 。 

2. 处 理 输入 特征 

这 种 方法 通过 随机 或 有 标准 地 选择 输入 特征 的 子 集 ， 得 到 每 个 训练 集 。 这 种 方法 
非常 适用 于 含有 大 量 宛 余 特 征 的 数据 集 ， 随 机 森林 (Random forest) 就 是 一 种 处 理 输 
入 特征 的 组 合 方法 。 
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3. 处 理 类 标号 

当 类 数目 足够 多 时 ， 把 这 些 类 标号 随机 划分 成 两 个 不 相交 的 子 集 4。 和 4,。 此 时 ， 
训练 数据 就 变 成 了 一 个 二 类 问题 ， 类 标号 属于 A 的 训练 样本 即 为 类 0， 类 标号 属于 
A, 的 训练 样本 即 为 类 1。 把 重新 标记 过 的 数据 作为 一 个 训练 集 ， 得 到 一 个 基 分 类 器 。 
多 次 重复 上 述 操作 ， 就 可 以 得 到 一 组 基 分 类 器 。 在 预测 未 知 样本 的 类 标号 时 ， 先 使 用 
每 个 基 分 类 器 预测 它 的 类 标号 , 预测 为 类 0 时 , 所 有 属于 4 的 类 都 得 一 票 , 反之 亦 然 。 
最 后 统计 所 有 类 得 到 的 选票 ， 将 得 票 最 多 的 类 判 为 未 知 样本 的 类 标号 。 

4. 处 理学 习 算 法 

在 同一 个 训练 集 上 多 次 执行 不 同 的 算法 从 而 得 到 不 同 的 基 分 类 器 。 


什么 是 随机 森林 ? 顾名思义 ， 是 用 随机 的 方式 建立 一 个 森林 ， 和 森林 由 很 多 的 决策 
树 组 成 ， 随 机 森林 的 每 一 棵 决策 树 之 间 是 没有 关联 的 。 在 得 到 森林 之 后 ， 当 有 一 个 新 
的 输入 样本 进入 的 时 候 ， 就 让 森林 中 的 每 一 棵 决策 树 分 别 进行 一 下 判断 ， 看 看 这 个 样 
本 应 该 属于 哪 一 类 (对 于 分 类 算法 ) ， 然 后 看 看 哪 一 类 被 选择 最 多 ， 就 预测 这 个 样本 
为 那 一 类 。 随 机 森林 是 一 种 多 功能 的 机 器 学 习 算法 ， 能 够 执行 回归 和 分 类 的 任务 。 同 
时 ， 它 也 是 一 种 数据 降 维 手段 ， 用 于 处 理 缺 失 值 、 异 常 值 以 及 其 他 数据 探索 中 的 重要 
步骤 ， 并 取得 了 不 错 的 成 效 。 另 外 ， 它 还 担任 了 集成 学 习 中 的 重要 方法 ， 在 将 几 个 低 
效 模型 整合 为 一 个 高 效 模型 时 大 显 身手 。 


7.2.1 随机 森林 的 原理 


决策 树 相当 于 一 个 大 师 ， 通 过 自己 在 数据 集中 学 到 的 知识 对 于 新 的 数据 进行 分 
Ko 但 俗话 说 得 好 : 一 个 诸葛 亮 , 玩 不 过 三 个 臭 皮 匠 。 随 机 森林 就 是 希望 构建 多 个 “ 臭 
皮 匠 ”， 希 望 最 终 的 分 类 效果 能 够 超过 单个 大 师 的 一 种 算法 。 

那 随机 森林 具体 如 何 构建 呢 ? 有 两 个 方面 : 数据 的 随机 性 选取 ， 以 及 待 选 特征 的 
随机 选取 。 

1. 随机 选择 数据 

给 定 一 个 训练 样本 集 ， 数 量 为 Y， 我 们 使 用 有 放 回 采样 得 到 六 个 样本 ， 构 成 一 
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个 新 的 训练 集 。 注 意 这 里 是 有 放 回 的 采样 ， 所 以 会 采样 到 重复 的 样本 。 详 细 来 说 ， 就 
是 采样 六 次 ， 每 次 采样 一 个 ， 放 回 ， 继 续 采 样 。 即 得 到 了 Y 个 样本 。 然 后 我 们 把 这 
个 样本 集 作为 训练 集 ， 进 入 下 一 步 。 数 据 样本 选择 过 程 如 图 7-1 所 示 。 


数据 样本 -1 
数据 样本 -2 
数据 样本 -3 




















生成 的 数据 集 -1 生成 的 数据 集 -2 



























































图 7-1 随机 森林 数据 样本 的 随机 选择 过 程 


2. 随机 选择 特征 

在 构建 决策 树 的 时 候 ， 我 们 前 面 已 经 讲 过 如 何在 一 个 结 点 上 ， 计 算 所 有 特征 的 
Information Gain (ID3) 或 者 Gain Ratio (C4.5) ， 然 后 选择 一 个 最 大 增益 的 特征 作为 
划分 下 一 个 子 结 点 的 走向 。 但 是 ， 在 随机 森林 中 ， 我 们 不 计算 所 有 特征 的 增益 ， 而 是 
从 总 量 为 MM 的 特征 向 量 中 ， 随 机 选择 m 个 特征 ， 其 中 m 可 以 等 于 sqrt(M) ， 然 后 
计算 m 个 特征 的 增益 ， 选 择 最 优 特 征 (属性) 。 这 样 能 够 使 得 随机 森林 中 的 决策 树 
都 能 够 彼此 不 同 ， 提 升 系统 的 多 样 性 ， 从 而 提升 分 类 性 能 。 注 意 ， 这 里 的 随机 选择 特 
征 是 无 放 回 的 选择 。 如 图 7-2 所 示 ， 蓝 色 的 方块 代表 所 有 可 以 被 选择 的 特征 ， 也 就 是 
目前 的 待 选 特征 。 黄 色 的 方块 是 分 裂 特征 。 左 边 是 一 棵 决策 树 的 特征 选取 过 程 ， 通 过 
在 待 选 特征 中 选取 最 优 的 分 裂 特 征 〈 别 忘 了 前 文 提 到 的 ID3 算法 、C4.5 算法 、CART 
算法 等 ) ， 完 成 分 裂 。 右 边 是 一 个 随机 森林 中 的 子 树 的 特征 选取 过 程 。 

3. 构建 决策 树 

有 了 上 面 随机 产生 的 样本 集 ， 我 们 就 可 以 使 用 一 般 决 策 树 的 构建 方法 ， 得 到 一 棵 
分 类 (或 者 预测 ) 的 决策 树 。 需 要 注意 的 是 ， 在 计算 结 点 最 优 分 类 特征 的 时 候 ， 我 们 
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要 使 用 上 面 的 随机 选择 特征 方法 。 而 选择 特征 的 标准 可 以 是 我 们 常见 的 Information 
Gain (ID3) 或 者 Gain Ratio (C4.5) 。 


eee 


3 Vv 
随机 选取 
mba BEN pane 
V 
分 裂 特征 
决策 村 选取 分 裂 特征 过 程 ” 随 机 森林 子 树 先 取 分 裂 特征 过 各 
图 7-2 决策 树 、 随 机 森林 子 树 分 裂 特征 过 程 对 比 

















4. 随机 森林 投票 分 类 

通过 上 面 的 三 步 走 ， 可 以 得 到 一 棵 决策 树 ， 我 们 重复 这 样 的 过 程 大 次 ， 就 得 到 了 
大 棵 决策 树 。 然 后 来 了 一 个 测试 样本 ， 我 们 就 可 以 用 每 一 棵 决策 树 都 对 它 分 类 一 遍 ， 
得 到 了 大 个 分 类 结果 。 这 时 ， 我 们 可 以 使 用 简单 的 投票 机 制 ， 或 者 该 测试 样本 的 最 终 
分 类 结果 ， 如 图 7-3 所 示 ， 展 示 随 机 森林 的 构建 过 程 。 


` 步骤 1: 
原 训 数 据 创建 随机 向 量 





使 用 随机 向 量 Cnt Cane 
建立 多 决策 树 ， Babi iod 





7-3 ”随机 森林 构建 过 程 


随机 森林 是 一 种 专门 为 决策 树 分 类 器 设计 的 组 合 方法 。 它 的 生成 和 组 合 规则 如 下 
所 示 : 
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D 给 定 一 个 训练 样本 集 ， 数 量 为 W， 按 照 有 放 回 采样 得 到 六 个 样本 ， 构 成 一 
个 新 的 训练 集 。 

(2) 从 总 量 为 M 的 特征 向 量 中 ， 随 机 且 无 放 回 地 选择 m 个 特征 ， 构 成 样本 子 
RT. ER k UGE k MERETET, Ty v0) Tro 

G) 在 已 有 的 样本 子 集 上 ， 按 常规 的 方法 建立 决策 树 ， 重 复 建立 上 棵 决策 树 ， 
每 棵 树 完全 生长 ， 不 前 枝 。 

(4) 此 时 ， 输 入 一 个 检验 集 ， 用 每 一 棵 决策 树 都 对 它 分 类 一 遍 ， 得 到 了 大 个 分 
类 结果 。 使 用 简单 的 投票 机 制 得 到 最 后 的 预测 结果 。 


7.2.2 ”随机 森林 的 优 缺 点 


1. 随机 森林 的 优点 

(1) 在 当前 很 多 数据 集中 ， 随 机 森林 相对 其 他 算法 有 很 大 的 优势 ， 表 现 良好 。 

(2) 很 适合 处 理 高 维度 的 数据 ， 且 不 需要 进行 特征 选择 (特征 子 集 是 随机 选择 的 ) 。 

(3) 当 存在 分 类 不 平衡 的 情况 时 ， 随 机 森林 能 够 提供 平衡 数据 集 误 差 的 有 效 方法 。 

(4) 在 每 个 结 点 仅 考 虑 特征 的 一 个 子 集 ， 显 著 减 少 算法 的 运行 时 间 。 

(5) 对 噪声 更 加 鲁 棒 。 

(6) 在 训练 完 后 ， 它 能 够 给 出 哪些 特征 比较 重要 。 

(7) 在 创建 随机 森林 的 时 候 ， 对 泛 化 误差 使 用 的 是 无 偏 估计 。 

(8) 训练 速度 快 。 

(9) 在 训练 过 程 中 ， 能 够 检测 到 特征 间 的 互相 影响 。 

(10) 因为 树 与 树 之 间 是 相互 独立 的 ， 所 以 容易 做 成 并 行 化 方法 。 

2. 随机 森林 的 缺点 

(1) 很 容易 产生 过 拟 合 。 

(2) 对 于 有 不 同 取 值 属 性 的 数据 ， 取 值 划 分 较 多 的 属性 会 对 随机 森林 产生 更 大 
的 影响 ， 所 以 随机 森林 在 这 种 数据 上 产 出 的 属性 权 值 是 不 可 信 的 。 


7.2.3 ”随机 森林 的 泛 化 误差 


已 从 理论 上 证 明 ， 当 树 的 数目 足够 大 时 ， 随 机 森林 的 泛 化 误差 的 上 界 收敛 于 下 面 
的 表达 式 : 


a ees 
sean Ot (7-1) 
Ss 
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其 中 ，5 表 示 树 之 间 的 平均 相关 系数 ; s 是 度量 树 形 分 类 器 性 能 的 量 。 人 性 能 以 分 
类 器 的 余 量 M) 表示 


M(X, Y)=P(, =Y)-maxP(Y, =Z) (7-2) 


其 中 ， 包 表示 根据 某 一 个 随机 向 量 0 构建 的 分 类 器 对 检验 集 碟 做 出 的 预测 类 。 
余 量 越 大 表示 分 类 器 正确 预测 检验 集 开 的 可 能 性 越 大 。 可 以 看 出 ， 随 机 森林 泛 化 误 
差 的 上 界 随 着 树 之 间 的 相关 性 的 增加 或 组 合 分 类 器 性 能 的 降低 而 增加 。 


7.24 输入 特征 的 选择 方法 


每 颗 决 策 树 都 使 用 一 个 从 固定 概率 分 布 产生 的 随机 向 量 。 可 以 使 用 多 种 方法 将 随 
机 向 量 合并 到 树 的 增长 过 程 中 。 常 用 的 方法 有 以 下 两 种 : 

1. Forest-RI 

随机 选择 下 个 输入 特征 对 决策 树 的 结 点 进行 分 裂 ， 这 种 方法 称 为 Forest-RI， 其 
中 RI 指 随 机 输入 选择 。 此 时 ， 随 机 森林 的 树 之 间 的 相关 性 和 分 类 器 的 余 量 M 都 取 
决 于 五 的 大 小 。 一 方面 ， 如 果 下 足够 小 ， 那 么 树 的 相关 性 就 会 趋 于 减弱 ， 另 一 方面 ， 
树 分 类 器 的 强度 趋 于 随 着 输入 特征 数 丘 的 增加 而 提高 。 折 中 考虑 ， 一 般 选 取 特 征 数 
目 为 F=log 4+1， 其 中 4 是 样本 集 输入 的 总 特征 数 。 

2. Forest-RC 

这 是 一 种 加 大 特征 空间 的 方法 。 因 为 如 果 原 始 数据 集 的 总 特征 数 4 太 小 ， 就 很 难 
选 出 一 个 独立 的 随机 特征 集合 。 此 时 ， 可 以 采取 这 种 方法 来 加 大 特征 空间 。 在 每 个 结 
点 随机 选择 工 个 输入 特征 构建 新 特征 。 这 工 个 输入 特征 用 区 间 [-1.1] 上 的 均匀 分 布 产 
生 的 系数 进行 线性 组 合 ， 在 每 个 结 点 产生 下 个 这 种 随机 组 合 的 新 特征 ， 然 后 从 中 选 
择 最 好 的 来 分 裂 结 点 。 


Bagging 算法 又 称 袋 装 算法 ， 是 机 器 学 习 领 域 的 一 个 团体 学 习 算 法 ， 最 初 由 Leo 
Breiman 于 1994 年 提出 。Bagging 算法 可 以 与 其 他 分 类 回归 算法 结合 ,提高 其 准确 率 、 
稳定 性 ， 同 时 降低 方差 ， 避 免 过 拟 合 。 
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先 直 观 地 考察 装 袋 如 何 作为 一 种 提高 准确 率 的 方法 。 假 设 你 是 一 个 病人 ， 和 希望 根 
据 你 的 症状 做 出 诊断 ， 你 可 能 选择 看 多 个 医生 ， 而 不 是 一 个 。 如 果 某 种 诊断 比 其 他 诊断 
出 现 的 次 数 多 ， 则 你 可 能 将 它 作为 最 终 或 最 好 的 诊断 。 也 就 是 说 ， 最 终 诊 断 是 根据 多 数 
表决 做 出 的 ， 其 中 每 个 医生 都 具有 相同 的 投票 权重 。 现 在 ， 将 医生 换 成 分 类 器 ， 你 就 可 
以 得 到 装 袋 的 基本 思想 。 直 观 地 ， 更 多 医生 的 多 数 表 决 比 少数 医生 的 多 数 表决 更 可 靠 。 

给 定 4 个 元 组 的 集合 D， 装 袋 过 程 如 下 : 对 于 和 迭代 ;站 G1, 2, e, OD, dt 
组 的 训练 集 D; 采 用 有 放 回 抽样 ， 由 原始 元 组 集 D 抽取 。 注 意 ， 术 语 装 袋 表 示 自 助 聚 
Æ (bootstrap aggregation〉。 每 个 训练 集 都 是 一 个 自助 样本 。 由 于 使 用 有 放 回 抽样 D 
的 某 些 元 组 可 能 不 在 D, 中 出 现 ， 而 其 他 元 组 可 能 出 现 多 次 。 由 每 个 训练 集 D, 学 习 ， 
得 到 一 个 分 类 模型 Mi。 为 了 对 一 个 未 知 元 组 工分 类 ， 每 个 分 类 器 M 返回 它 的 类 预测 ， 
算 作 一 票 。 装 袋 分 类 器 统计 得 票 ， 并 将 得 票 最 高 的 类 赋予 通过 取 给 定 检验 元 组 的 
每 个 预测 的 平均 值 。 装 袋 也 可 以 用 于 连续 值 的 预测 。 算 法 汇总 如 下 ; 


算法 7.1 装 袋 算法 一 一 为 学 习 方案 创建 组 合 分 类 模型 , 其 中 每 个 模型 给 





出 等 权重 预测 


输入 : D: 4 个 训练 元 组 的 集合 ; k 组 合 分 类 器 中 的 模型 数 ， 一 种 学 习 方 案 (如 
决策 树 算法 、 后 向 传播 等 ) ; 

输出 : 组 合 分 类 器 一 一 复合 模型 M*; 

Begin 

LFor i= 1 tok Do /创建 大 个 模型 ; 

I 通过 对 DD 有 放 回 抽样 ， 创 建 训 练 样本 D,; 

TH. 使 用 D; 和 学 习 方 法 导出 模型 ; 

IV.End For; 

V. 使 用 组 合 分 类 器 对 元 组 承 分 类 : 让 上 个 模型 都 对 革 分 类 并 返回 多 数 表决 。 

End 


装 袋 分 类 器 的 准确 率 通常 显著 高 于 从 原 训练 集 刀 导出 的 单个 分 类 器 的 准确 率 。 
对 于 噪声 数据 和 过 拟 合 的 影响 ， 它 也 不 会 很 差 甚至 更 棒 。 准 确 率 的 提高 是 因为 复合 模 
型 降低 了 个 体 分 类 器 的 方差 。 

为 了 说 明 装 袋 如 何 进行 , 考虑 表 7-1 给 出 的 数据 集 。 设 x 表 示 一 维 属 性 ,表示 类 标号 。 
假设 使 用 这 样 一 个 分 类 器 ， 它 是 仅 包含 一 层 的 二 又 决策 树 ， 具 有 一 个 测试 条 件 x < k 
其 中 是 使 得 叶子 结 点 炉 最 小 的 分 裂 点 。 这 样 的 树 也 称 为 决策 树桩 (Decision Stump) 。 
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表 7-1 用 子 构建 装 袋 组 合 分 类 器 的 数据 集 例子 


Jor Joa Jos Joa Jos Jos To Ts oor 


区 | 


不 进行 装 袋 ， 能 产生 的 最 好 的 决策 树桩 的 分 裂 点 为 客 x* < 0.35 Rx < 0.75. 无 
论 选择 哪 一 个 ， 树 的 准确 率 最 多 为 70%。 假 设 我 们 在 数据 集 上 应 用 10 个 自助 样本 集 
的 装 袋 过 程 ， 图 7-4 给 出 了 每 轮 装 袋 选 择 的 训练 样本 。 在 每 个 表 的 右边 ， 给 出 了 分 类 
器 产生 的 决策 边界 。 














袋 装 第 1 轮 

x 0.1 x < 0.35 > 3=1 
y 1 x>0.35 > y=-1 
袋 装 第 2 轮 


x [o1 [o2 [o3 [o4 Jos Jos Joo [i fi fi x<065 > y=1 
yb bbe ft hhh h 350.65 > y= 


x < 0.35 > y=1 
x>0.35 > y=-1 


x < 0.3 > )=1 
x>0.3 > y=-1 


x |01 [o1 [o2 Jos Joe Jos foe [1 fi fi x < 0.35 > y=1 
si eehh pampe p 25035 > y=1 
































































































































x |02 |04 [os [o6 [07 [07 |%7 Jos Joo Ji x<0.75 > 3-1 
y 1 -1 ja ja ja ja ha [1 1 1 x>0.75 > y=-1 
袋 装 第 7 轮 

x [01 [04 [04 Jos [07 Jos Joo foo Joo Ji x<0.75 > y=1 
y 1 -1 ja ja ja li 1 1 1 | 1 320.75 > y=1 
袋 装 第 8 轮 

x |01 |02 Jos [os [os |07 [o7 [os [o9 [1 x < 0.75 => y=1 
y fl 1 a |a ja |a ja li 1 1 x>0.75 > y=-1 
袋 装 第 9 轮 

x |01 [os [04 |04 [os |07 [o7 [os Ji 1 x<0.75 > y=1 
y fl 1 a ja ja ja ja li | 1 | 1 x>0.75 > y=1 
袋 装 第 10 轮 

x |01 |01 |01 |01 |03 |03 |08 Jos |09 |09 x < 0.05 > 3=1 
y 1 1 1 1 1 1 1 1 1 1 x>0.05 > y=—1 























图 7-4 装 袋 的 例子 
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通过 对 每 个 基 分 类 器 所 做 的 预测 使 用 多 数 表 决 来 分 类 , 表 7-1 给 出 了 整个 数据 集 。 
表 7-2 给 出 了 预测 结果 。 由 于 类 标号 是 -1 或 1， 因 此 应 用 多 数 表 决 等 价 于 对 ? 的 预测 
值 求 和 ， 然 后 考察 结果 的 符号 (参看 表 7-2 中 的 第 二 行 到 最 后 一 行 ) 。 注 意 ， 组 合 分 
类 器 完全 正确 地 分 类 了 原始 数据 集中 的 10 个 样本 。 





表 7-2 ”使 用 装 袋 方法 构建 组 合 分 类 器 的 例子 


























前 面 的 例子 也 说 明了 使 用 组 合 方法 的 又 一 个 优点 : 增强 了 目标 函数 的 表达 功能 。 
即使 每 个 基 分 类 器 都 是 一 个 决策 树桩 , 组 合 的 分 类 器 也 能 表示 一 棵 深度 为 2 的 决策 树 。 

装 袋 通过 降低 基 分 类 器 方差 改善 了 泛 化 误差 。 装 袋 的 性 能 依赖 于 基 分 类 器 的 稳定 
性 。 如 果 基 分 类 器 是 不 稳定 的 ， 装 袋 有 助 于 降低 训练 数据 的 随机 波动 导致 的 误差 ;如 
果 基 分 类 器 是 稳定 的 ， 即 对 训练 数据 集中 的 微小 变化 是 很 棒 的 ， 则 组 合 分 类 器 的 误差 
主要 是 由 基 分 类 器 的 偏 倚 所 引起 的 。 

最 后 ， 由 于 每 一 个 样本 被 选中 的 概率 都 相同 ， 因 此 装 袋 并 不 侧重 于 训练 数据 集中 
的 任何 特定 实例 。 因 此 ， 用 于 噪声 数据 ， 装 袋 不 太 受 过 拟 合 的 影响 。 


( 7.4 AdaBoost 算法 ` 


现在 考察 组 合 分 类 方法 提升 。 假 设 你 是 一 位 患者 ， 有 某 些 症状 ， 你 选择 咨询 多 位 
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医生 ， 而 不 是 一 位 。 假 设 你 根据 医生 先前 的 诊断 准确 率 ， 对 每 位 医生 的 诊断 赋予 一 
个 权重 ， 然 后 将 这 些 加 权 诊 断 的 组 合作 为 最 终 的 诊断 ， 这 就 是 AdaBoosts 算法 的 基 
本 思想 。 





7.4.1 AdaBoost 算 法 简介 


AdaBoost 是 一 种 迭代 算法 ， 其 核心 思想 是 针对 同一 个 训练 集训 练 不 同 的 分 类 器 
〈 弱 分 类 器 ), 然后 把 这 些 弱 分 类 器 集合 起 来 , 构成 一 个 更 强 的 最 终 分 类 器 ( 强 分 类 器 ) 。 
其 算法 本 身 是 通过 改变 数据 分 布 来 实现 的 ， 它 根据 每 次 训练 集 之 中 每 个 样本 的 分 类 是 
否 正确 ， 以 及 上 次 的 总 体 分 类 的 准确 率 ， 来 确定 每 个 样本 的 权 值 ， 从 而 自 适 应 地 改变 
训练 样本 的 分 布 。 将 修改 过 权 值 的 新 数据 集 送 给 下 层 分 类 器 进行 训练 。 目 的 是 使 基 分 
类 器 聚焦 在 那些 很 难 分 的 样本 上 。 最 后 将 每 次 训练 得 到 的 分 类 器 融合 起 来 ， 作 为 决策 
分 类 器 。 


7.4.2 AdaBoost 算 法 原理 


本 节 描 述 一 个 算法 ， 它 利用 样本 的 权 值 来 确定 其 训练 集 的 抽样 分 布 。 开 始 时 ， 所 
有 样本 都 赋予 相同 的 权 值 1/N 从 而 使 得 它们 被 选 作 训 练 的 可 能 性 都 一 样 。 根 据 训练 样 
本 的 抽样 分 布 来 抽取 样本 ， 得 到 新 的 样本 集 。 然 后 ， 由 该 训练 集 归纳 一 个 分 类 器 ， 并 
用 它 对 原 数据 集中 的 所 有 样本 进行 分 类 。 每 一 轮 提升 结束 时 更 新 训练 样本 的 权 值 。 增 
加 被 错误 分 类 的 样本 的 权 值 ， 而 减 小 被 正确 分 类 的 样本 的 权 值 。 这 迫使 分 类 器 在 随后 
迭代 中 关注 那些 很 难 分 类 的 样本 。 表 7-3 给 出 了 数据 集 。 


表 7-3 用 于 构建 提升 组 合 分 类 器 的 数据 集 例子 








表 7-4 给 出 了 每 轮 提升 选择 的 样本 。 


表 7-4 每 轮 提升 选择 的 样本 


提升 (第 二 轮 )|5 
提升 (第 三 轮 )|4 
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开始 ， 所 有 的 样本 都 赋予 相同 的 权 值 2。 然 而 ， 由 于 抽样 是 有 放 回 的 ， 因 此 某 些 
样本 可 能 被 选中 多 次 ， 如 样本 3 和 7。 然后 ， 使 用 由 这 些 数据 建立 的 分 类 器 对 所 有 样 
本 进行 分 类 。 假 定 样本 4 很 难 分 类 ， 随 着 它 被 重复 地 误 分 类 ， 该 样本 的 权 值 在 后 面 的 
和 代 中 将 会 增加 。 同 时 ， 前 一 轮 没 有 被 选中 的 样本 〈 如 样本 1 和 样本 5) 也 有 更 好 的 
机 会 在 下 一 轮 被 选中 , 因为 前 一 轮 对 它们 的 预测 多 半 是 错误 的 。 随 着 提升 过 程 的 进行 ， 
最 难 分 类 的 那些 样本 将 有 更 大 的 机 会 被 选中 。 通 过 聚集 每 个 提升 轮 得 到 的 基 分 类 器 ， 
就 得 到 最 终 的 组 合 分 类 器 。 

在 过 去 的 几 年 里 ， 已 经 开发 了 几 个 提升 算法 的 实现 。 这 些 算法 的 差别 在 于 

(1) 每 轮 提升 结束 时 如 何 更 新 训练 样本 的 权 值 ;〈2) 如 何 组 合 每 个 分 类 器 的 预测 。 
下 面 ， 主 要 考察 称 为 AdaBoost 的 实现 。 

AdaBoost 是 英文 “Adaptive Boosting”【〔 自 适应 提升 ) 的 缩写 ， 是 一 种 流行 的 提 
升 算法 ， 由 Yoav Freund 和 Robert Schapire 提出 。AdaBoost 方法 的 自 适应 在 于 : 前 一 
个 分 类 器 分 错 的 样本 会 被 用 来 训练 下 一 个 分 类 器 。 假 设 我 们 想 提 升 某 种 学 习 方 法 的 准 
确 率 。 给 定数 据 集 D， 它 包含 4 个 类 标记 的 元 组 Gx y) Cy ms Op 
ya) 其 中 攻 是 元 组 成 的 类 标号 。 开 始 ，AdaBoost 对 每 个 训练 元 组 赋予 相等 的 权重 
1d, 为 组 合 分 类 器 产生 上 个 基 分 类 器 需要 执行 算法 的 其 余部 分 £ 轮 。 在 第 i 轮 ， 从 DD 
中 元 组 抽样 ， 形 成 大 小 为 4 的 训练 集 D;。 使 用 有 放 回 抽样 一 一 同一 个 元 组 可 能 被 选 
中 多 次 。 每 个 元 组 被 选中 的 机 会 由 它 的 权重 决定 。 从 训练 集 导出 分 类 器 Mi， 然 后 使 
用 D; 作 为 检验 集 计算 M 的 误差 。 训 练 元 组 的 权重 根据 它们 的 分 类 情况 调整 。 

如 果 元 组 不 正确 地 分 类 , 则 它 的 权重 增加 ; 如 果 元 组 正确 分 类 ， 则 它 的 权重 减少 。 
元 组 的 权重 反映 对 它们 分 类 的 困难 程度 一 一 权重 越 高 ， 越 可 能 被 错误 地 分 类 。 然 后 ， 
使 用 这 些 权重 ， 为 下 一 轮 的 分 类 器 产生 训练 样本 。 其 基本 思想 是 ， 当 建立 分 类 器 时 ， 
希望 它 更 关注 上 一 轮 误 分 类 的 元 组 。 某 些 分 类 器 对 某 些 “ 困 难 ” 元 组 分 类 可 能 比 其 他 
分 类 器 好 。 这 样 ， 建 立 了 一 个 互补 的 分 类 器 系列 。 

现在 考察 改 算法 涉及 的 数学 问题 。 令 { (已 ) ， 划 1，2，…，N 表示 包含 个 
训练 样本 的 集合 。 在 AdaBoost 算法 中 ， 基 分 类 器 C 的 重要 性 依赖 于 它 的 错误 率 。 错 
误 率 6 定义 为 : 





£ EPA] (7-3) 


其 中 ， 如 果 谓 词 p AR, WI (p) =1， 否 则 为 0。 基 分 类 器 C; 的 重要 性 由 如 下 
参数 给 出 : 
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1 
了 ) (7-4) 

注意 ， 如 果 错 误 率 接近 0， 则 a; 具有 一 个 很 大 的 正 值 ， 而 当 错 误 率 接近 1 时 ，w 
有 一 个 很 大 的 负 值 ， 如 图 7-5 所 示 。 


a= 
i 


koi 
& 





In[ (l-e ) /e] 














图 7-5 作为 训练 误差 的 函数 绘制 曲线 


参数 w 也 被 用 来 更 新 训练 样本 的 权 值 。 为 了 说 明 这 一 点 ， 假 定 w 表示 在 第 j 轮 
PEPE PUP REA CX, y) 的 权 值 。AdaBoost 的 权 值 更 新 机 制 由 式 〈7-5) 给 出 : 


wnat (天 (7-5) 


a 


e WRC (X,+ y, 


Gw] 


其 中 , ZE—AEART, ARR MO ”=1。 式 7-5) 给 出 的 权 值 更 新 增 
加 那些 被 错误 分 类 样本 的 权 值 ， 并 减少 那些 已 经 被 正确 分 类 的 样本 的 权 值 。 

AdaBoost 算法 将 每 一 个 分 类 器 C 的 预测 值 根据 a 进行 加 权 ， 而 不 是 使 用 多 数 表 
决 的 方案 。 这 种 机 制 有 助 于 AdaBoost 徒 罚 那些 准确 率 很 差 的 模型 ， 如 那些 在 较 早 的 
提升 轮 产 生 的 模型 。 另 外 ， 如 果 任何 中 间 轮 产生 高 于 50% 的 误差 ， 则 权 值 将 被 恢复 
为 开始 的 一 致 值 w=1/N， 并 重新 进行 抽样 。 下 面 给 出 了 AdaBoost 算法 的 描述 。 


算法 7.2 AdaBoost 算法 





输入 : 训练 数据 集 D; 一 个 决策 树 算法 ; 
输出 : AdaBoost 算法 的 决策 结果 ; 
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Begin 

I. W={w=1/N}j=1, 2, =, N} 初始 化 入 个 样本 的 权 值 》; 
IL. 令 上 表示 提升 的 轮 数 ; 

Ill. For =1 tok Do; 

IV. 根据 w， 通 过 对 D 进行 抽样 《有 放 回 〉 产 生 训 练 集 Di 
V. 在 D, 上 训练 基 分 类 器 Cr 

VI 用 CG; 对 原 训练 集 DD 中 的 所 有 样本 分 类 ; 


vi. & - 虽 Zwaceoza|， 计算 加 权 误差 ; 

VIIL If ¢>0.5 Then; 

IX.W={w=l/Nj=1, 2, =, N} ERRE 个 样本 的 权 ) ; 
X. 返回 步骤 IV; 


XLEnd If; 
i, ie 
x, GG 


XIII. 根据 式 〈5-69) 更 新 每 个 样本 的 权 值 ; 
XIV. End For; 


i 

xy, C* (X) =argmax ,a,6(C,(X)=») 。 
Ja 

End 


现在 看 提升 方法 在 表 7-3 给 出 的 数据 集 上 是 怎么 工作 的 。 最 初 ， 所 有 的 样本 具有 
相等 的 权 值 。 三 轮 提 升 后 ， 选 作 训练 的 样本 如 表 7-5 (a) 所 示 。 在 每 轮 提升 结束 时 使 
用 权 值 公式 来 更 新 每 一 个 样本 的 权 值 。 

不 使 用 提升 ， 决 策 树桩 的 准确 率 至 多 达到 70%。 使 用 AdaBoost, 预测 结果 在 表 7-6 
Co) 给 出 。 组 合 分 类 器 的 最 终 预 测 结果 通过 取 每 个 基 分 类 器 预测 的 加 权 平 均 得 到 ， 
显示 在 表 7-6 (b) 的 最 后 一 行 。 注 意 ，AdaBoost 完全 正确 地 分 类 了 训练 数据 集中 的 
所 有 样本 。 


表 7-5 提升 的 例子 


(a) 提升 选择 的 训练 记录 
第 1 轮 提升 
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0.228 |0.228 

















516 |s16 [5.16 at 0.397 |0397 |0.397 


743 AdaBoost 算 法 的 优 缺 点 


1. AdaBoost 算法 的 优点 


(1) 很 好 地 利用 





(2) 可 以 将 不 同 


了 弱 分 类 器 进行 级 联 。 
的 分 类 算法 作为 弱 分 类 器 。 


(3) AdaBoost 具有 很 高 的 精度 。 


(4) 相对 于 Bagging 算法 和 Random Forest 算法 ， 


分 类 器 的 权重 。 


(5) 弱 分 类 器 的 构造 极其 简单 。 


AdaBoost 充分 地 考虑 了 每 个 
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(6) 计算 结果 容易 理解 。 

(7) 不 会 过 拟 合 。 

2. AdaBoost 算法 的 缺点 

(1) AdaBoost 迭代 次 数 也 就 是 弱 分 类 器 数目 不 太 好 设 定 ， 但 可 以 使 用 交叉 验证 
来 进行 确定 。 

(2) 数据 不 平衡 导致 分 类 精度 下 降 。 

(3) 训练 时 间 过 长 。 

(4) 执行 效果 依赖 于 弱 分 类 器 的 选择 。 


分 类 问题 是 机 器 学 习 领域 的 重要 研究 内 容 之 一 ， 现 有 的 一 些 分 类 方法 都 已 经 相对 
成 熟 ， 用 它们 来 对 平衡 数据 进行 分 类 一 般 都 能 取得 较 好 的 分 类 性 能 。 然 而 ， 现 有 的 分 
类 器 的 设计 都 是 基于 各 类 分 布 大 致 平衡 这 一 假设 的 ， 通 常 假定 用 于 训练 的 数据 集 是 平 
衡 的 ， 即 各 类 所 含 的 样本 数 大 致 相当 ， 然 而 这 一 假设 在 很 多 现实 问题 中 是 不 成 立 的 ， 
数据 集中 某 个 类 别 的 样本 数 可 能 会 远 远 少 于 其 他 类 别 。 为 便于 读者 更 清晰 地 了 解数 据 
不 平衡 分 类 问题 的 研究 现状 和 未 来 研究 的 动向 ， 本 节 对 相关 的 研究 进行 综述 和 展望 。 


7.5.1 不 平衡 数据 


7.5.1.1 不 平衡 数据 的 介绍 


在 数据 集中 ， 某 一 类 的 样本 数量 远 远 少 于 其 他 类 样本 数量 ， 即 数据 集中 不 同类 别 
样本 的 数量 是 非 平衡 的 ， 这 样 的 数据 称 为 不 平衡 数据 。 通 常 ， 将 数量 上 占 多 数 的 类 称 
为 “多 数 类 ”, 而 占 少 数 的 类 称 为 “少数 类 ”。 

许多 实际 应 用 领域 中 都 存在 不 平衡 数据 集 ， 如 欺骗 信用 卡 检测 、 医 疗 诊断 、 信 息 
检索 、 文 本 分 类 等 ， 其 中 少数 类 的 识别 率 更 为 重要 。 在 医疗 诊断 中 如 果 把 正常 人 误诊 
为 病人 固然 会 给 他 带 来 精神 上 的 负担 ， 但 如 果 把 一 个 病人 误诊 为 正常 ， 就 可 能 会 错过 
最 佳 治疗 时 期 ， 从 而 造成 严重 的 后 果 。 传 统 的 分 类 方法 倾向 于 对 多 数 类 有 较 高 的 识别 
率 ， 对 于 少数 类 的 识别 率 很 低 。 因 此 ， 不 均衡 数据 集 分 类 问题 的 研究 需要 寻求 新 的 分 
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类 方法 和 判别 准则 。 

鉴于 解决 不 平衡 学 习 问 题 有 着 很 深远 的 意义 ， 因 此 研究 者 对 该 问题 进行 了 大 量 的 
研究 。 相 关 研 究 主要 围绕 以 下 三 个 方面 展开 : 〈1) 改变 数据 的 分 布 ; 〈2) 设计 新 的 
分 类 方法 ; G) 设计 新 的 分 类 器 评价 标准 。 为 便于 读者 更 加 清晰 地 了 解数 据 不 平衡 
分 类 问题 的 研究 现状 和 未 来 研究 动向 ， 本 节 对 此 做 一 个 概要 性 介绍 并 进行 了 展望 。 


7.5.1.2 不 平衡 数据 分 类 问题 的 难点 


不 同 于 均衡 数据 的 分 类 ， 不 平衡 数据 的 分 类 问题 求解 相对 较 难 ， 其 主要 原因 为 
如 下 : 

(1) 经 典 的 分 类 精度 评价 准则 不 能 适用 于 不 平衡 数据 的 分 类 器 性 能 判别 。 在 传 
统 机 器 学 习 中 通常 采用 分 类 精度 作为 评价 准则 ， 当 对 不 平衡 数据 进行 学 习 时 ， 少 数 类 
对 分 类 精度 的 影响 可 能 会 远 远 小 于 多 数 类 。 研 究 表明 ， 以 分 类 精度 为 准则 的 分 类 学 习 
通常 会 导致 少数 类 样本 的 识别 率 较 低 ， 这 样 的 分 类 器 倾向 于 把 一 个 样本 预测 为 多 数 类 
样本 。 若 训练 数据 是 极端 不 平衡 的 ， 学 习 的 结果 可 能 没有 针对 少数 类 的 分 类 规则 ， 因 
此 对 于 不 平衡 数据 的 分 类 , 以 高 分 类 精度 为 目标 是 不 合适 的 ， 需 要 引入 更 加 合理 的 评 
价 标准 。 

(2) 仅 有 很 少 的 少数 类 样本 数据 。 仅 有 很 少 的 少数 类 样本 分 两 种 情况 ， 少数 类 
样本 绝对 缺乏 和 少数 类 样本 相对 缺乏 。 无 论 哪 种 情况 ， 我 们 称 类 分 布 的 不 平衡 程度 为 
少数 类 中 的 样本 数 与 支撑 类 中 的 样本 数 之 比 。 在 实际 应 用 中 ， 该 比例 可 以 达到 1:100、 
1:1000， 甚 至 更 大 。 本 章 参考 文献 [30] 对 该 比例 与 分 类 性 能 之 间 的 关系 进行 了 深入 的 
研究 ， 研 究 结果 表明 ， 很 难 明确 地 给 出 何 种 比例 会 降低 分 类 器 的 性 能 ， 因 为 分 类 器 的 
性 能 还 与 样本 数 和 样本 的 可 分 性 有 关 。 在 某 些 应 用 下 ，1:35 的 比例 就 会 使 某 些 分 类 方 
法 无 效 ， 甚 至 1:10 的 比例 也 会 使 某 些 分 类 方法 无 效 。 

对 于 少数 类 样本 绝对 缺乏 的 情况 ， 因 少数 类 所 包含 的 信息 很 有 限 ， 从 而 难以 确定 
少数 类 数据 的 分 布 ， 即 在 其 内 部 难以 发 现 规律 ， 进 而 造成 少数 类 的 识别 率 低 ;对 于 少 
数 类 样本 相对 缺乏 的 情况 ， 少 数 类 样本 数据 相对 缺乏 不 同 于 少数 类 样本 数据 的 绝对 缺 
乏 ， 相 对 缺乏 是 指 少数 类 样本 在 绝对 数量 上 并 不 少 ， 但 相对 于 多 数 类 来 说 它 的 样本 数 
目 很 少 。 在 样本 相对 缺少 的 情况 下 ， 同 样 不 利于 少数 类 的 判别 ， 因 为 多 数 类 样本 会 模 
糊 少数 类 样本 的 边界 ， 且 使 用 贪心 搜索 法 〈 贪 心算 法 是 指 ， 在 对 问题 求解 时 ， 总 是 做 
出 在 当前 看 来 是 最 好 的 选择 。 也 就 是 说 ， 不 从 整体 最 优 上 加 以 考虑 ， 它 所 做 出 的 是 在 
某 种 意义 上 的 局 部 最 优 解 。 贪 心算 法 不 是 对 所 有 问题 都 能 得 到 整体 最 优 解 。 关 键 是 贪 
心 策略 的 选择 ， 选 择 的 贪心 策略 必须 具备 无 后 效 性 ， 即 某 个 状态 以 前 的 过 程 不 会 影响 
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以 后 的 状态 ， 只 与 当前 状态 有 关 ) 难以 把 少数 类 样本 与 多 数 类 区 分 开 来 ， 而 更 全 局 性 
的 方法 通常 难以 处 理 。 

G) 数据 碎片 。 从 算法 设计 角度 来 看 , 很 多 分 类 算法 采用 分 治 法 ， 这 些 算法 将 
原始 的 问题 逐渐 分 为 越 来 越 小 的 一 系列 子 问 题 ， 因 而 导致 原 空间 被 划分 为 越 来 越 小 的 
一 系列 子 空间 。 样 本 空间 的 逐渐 划分 会 导致 数据 碎片 问题 ， 这 样 只 能 在 各 个 独立 的 子 
空间 中 寻找 数据 的 规律 ， 对 于 少数 类 来 说 每 个 子 空间 中 包含 了 很 少 的 数据 信息 ， 一 些 
跨 子 空间 的 数据 规律 就 不 能 被 挖掘 出 来 。 数 据 碎片 问题 也 是 影响 少数 类 样本 学 习 的 一 
个 突出 的 问题 。 

(4) 不 恰当 的 归纳 偏 置 〈 当 分 类 器 去 预测 其 未 遇 到 过 的 输入 结果 时 ， 会 做 一 些 
假设 ， 而 学 习 算 法 中 归纳 偏 置 则 是 这 些 假设 的 集合 ) 。 根 据 特 定 样本 的 归纳 需要 一 个 
合理 的 偏 置 ， 否 则 学 习 就 不 能 实现 。 归 纳 偏 置 对 算法 的 性 能 有 着 很 大 的 影响 ， 为 了 获 
得 较 好 的 性 能 并 避免 过 拟 合 ， 许 多 学 习 算 法 使 用 的 偏 置 往往 不 利于 对 少数 类 样本 的 学 
习 。 许 多 归纳 推理 系统 在 存在 不 确定 时 往往 倾向 于 把 样本 分 类 为 多 数 类 。 可 见 ， 不 恰 
当 的 归纳 偏 置 对 不 平衡 数据 的 学 习 是 不 利 的 。 

此 外 ， 大 多 数 分 类 器 的 性 能 都 会 受 噪声 的 影响 。 在 不 平衡 问题 中 ， 由 于 少数 类 的 
数量 很 少 ， 因 此 分 类 器 有 可 能 难以 正确 区 分 少数 类 和 噪声 ， 故 噪声 对 少数 类 的 影响 要 
大 于 对 多 数 类 的 影响 。 噪 声 的 存在 使 防止 过 拟 合 技术 变 得 非常 重要 ， 如 何 抑制 噪声 、 
强化 少数 类 样本 的 作用 是 具有 挑战 性 的 研究 工作 。 


7.5.2 不 平衡 数据 的 处 理 方法 一 一 数据 层面 


7.5.2.1 过 抽样 


过 抽样 是 处 理 不 平衡 数据 的 最 常用 方法 ， 其 基本 思想 是 通过 改变 训练 数据 的 分 
布 来 消除 或 减 小 数据 的 不 平衡 。 过 抽样 方法 通过 增加 少数 类 样本 来 提高 少数 类 的 分 
类 性 能 。 

(1) 最 简单 的 过 抽样 办 法 是 简单 复制 少数 类 样本 ， 缺 点 是 引入 了 额外 的 训练 数 
据 ， 但 却 没 有 给 少数 类 增加 任何 新 的 信息 ， 而 且 可 能 会 导致 过 拟 合 。 改 进 的 过 抽样 方 
法 通过 在 少数 类 中 加 入 随机 高 斯 噪声 或 产生 新 的 合成 样本 等 方法 ， 在 一 定 程度 上 可 以 
解决 上 述 问 题 ， 如 Chawla 等 人 提出 的 SMOTE 算法 。 

(2) SMOTE 算法 。SMOTE 过 抽样 技术 是 一 种 有 别 于 传统 过 抽样 算法 的 新 技术 。 
传统 过 抽样 是 通过 简单 复制 样本 并 加 入 原 数据 集 的 ， 而 SMOTE 算法 是 使 用 合成 方法 
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产生 新 的 少数 类 样本 以 改变 数据 集 样本 的 分 布 特点 ， 在 避免 了 数据 集 内 样本 大 量 重复 
情况 的 同时 ， 减 缓 了 类 别 的 不 平衡 程度 ， 基 本 原理 如 图 7-6 所 示 。 从 SMOTE 技术 的 
合成 新 样本 特性 可 以 看 出 ， 它 能 够 在 一 定 程度 上 解决 传统 过 抽样 容易 出 现 的 过 拟 合 问 
题 ， 在 目前 十 分 常用 。 





口 多 数 类 样本 





O 少数 类 样本 

















o 合成 样本 























图 7-6 SMOTE 算法 的 基本 原理 


SMOTE 技术 合成 新 样本 的 方法 如 图 7-6 所 示 。 以 少数 类 样本 x 为 例 ， 首 先 计算 
其 同类 大 近邻 (三 5) 样本 由 fy, ys or, x5} 组 成 ， 从 图 7-6 中 可 以 看 出 ， 少 数 类 
样本 x 附近 的 样本 被 异类 (多 数 类 ) 样本 包围 的 程度 更 大 ， 这 也 就 是 用 传统 分 类 算 
法 解决 不 平衡 数据 分 类 问题 不 能 取得 很 好 效果 的 原因 。 从 5- 邻近 同类 样本 中 随机 选 
择 一 个 样本 ， 假 设 为 x,， 然 后 计算 样本 x 与 x 对 应 属性 上 的 属性 值 之 差 ， 则 x 与 x 
对 应 属性 i 上 的 差 值 Vx HP x; 表示 样本 x 的 第 i 个 属性 值 。 设 该 数据 集 有 
n 维 属性 ， 然 后 按照 式 (7-6) 的 计算 方法 ， 将 差 值 万 乘 以 [0，1] 中 的 一 个 随机 数 ， 
再 加 上 样本 x 的 对 应 的 属性 值 x;， 就 可 以 生成 一 个 新 的 属性 值 h;。 对 于 少数 类 样本 
xz， 每 一 维 都 能 得 到 这 样 一 个 新 的 属性 值 ， 这 些 属 性 值 按照 对 应 的 顺序 ， 可 以 组 成 一 
个 新 的 少数 类 样本 有。 
fxot Vxrand[0, 1] (7-6) 
然后 根据 事先 设置 的 采样 率 ， 反 复 执 行 以 上 过 程 ， 合 成 新 的 少数 类 样本 ， 将 其 加 
入 少数 类 样本 集 ， 组 成 新 的 样本 集 作 为 新 的 训练 集 。 从 图 7-6 中 可 以 直接 看 出 ， 该 合 
成 技术 的 实质 是 在 当前 样本 和 其 随机 的 一 个 大 邻近 样本 的 连 线 上 随机 插入 新 的 样本 ， 
使 用 该 方法 生成 的 新 样本 能 够 扩展 少数 类 的 分 布 空间 ， 使 得 在 此 新 训练 集 上 训练 的 分 
类 器 有 更 好 的 泛 化 能 力 和 分 类 性 能 。 
总 的 来 说 ，SMOTE 方法 是 对 于 每 一 个 少数 类 样本 寻找 其 最 近邻 的 的 同类 ， 连 
线 并 在 连 线 上 取 任 意 一 点 作为 新 生成 的 少数 类 。 重 复 上 述 插值 过 程 ， 使 得 新 生成 的 训 
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练 数据 集 达到 均衡 ， 最 后 利用 新 的 样本 进行 训练 。 其 优点 是 : 有 助 于 打破 简单 复制 造 
成 的 过 拟 合 以 及 少数 类 信息 量 没 有 增加 的 问题 ， 并 且 可 以 使 分 类 器 的 学 习 能 力 得 到 显 
著 提 升 。 

(3) 此 外 ， 还 有 一 种 基于 初 分 类 的 过 抽样 算法 。 其 基本 思想 是 : 一 个 多 数 类 
样本 ， 若 它 在 训练 集中 的 n 个 近邻 也 都 属于 多 数 类 ， 根 据 最 近邻 的 思想 则 该 样本 高 
分 类 边界 较 远 ， 对 分 类 是 相对 安全 的 。 将 多 数 类 中 满足 上 述 条 件 的 所 有 样本 放 入 集 
合 E， 将 少数 类 与 集合 玉 合 并 记 为 训练 集 4， 利 用 训练 集 4 对 多 数 类 样本 进行 最 
近邻 分 类 ， 而 误 分 类 的 多 数 类 样本 则 放 入 集合 且 。 将 少数 类 和 集合 HAHA RB 
个 新 的 训练 集 B。 


7.5.2.2 RH 


欠 抽 样 方法 通过 减少 多 数 类 样本 来 提高 少数 类 的 分 类 性 能 。 

(1) 最 简单 的 欠 抽 样 方法 是 通过 随机 地 去 掉 一 些 多 数 类 样本 来 减 小 多 数 类 的 规 
模 ， 缺 点 是 有 可 能 会 丢失 多 数 类 的 一 些 重要 信息 ， 不 能 够 充分 利用 已 有 的 信息 。 因 此 
人 们 提出 了 许多 改进 的 欠 抽 样 方法 。 

(2) 单 边 选择 算法 (One-sided selection) 尽 可 能 地 不 删除 有 用 的 样本 ， 多 数 类 
样本 被 分 为 “噪声 样本 ” “边界 样本 ”和 “安全 样本 ”， 将 边界 样本 和 噪声 样本 从 
多 数 类 中 删除 ， 得 到 的 分 类 效果 会 比 随机 从 抽 样 理想 一 些 。 也 可 以 把 对 少数 类 的 过 抽 
样 与 对 多 数 类 的 欠 抽样 两 者 结合 起 来 。 单 边 选择 算法 是 通过 判断 样本 间 的 距离 的 方式 
来 把 多 数 类 划分 为 “噪声 样本 ”“ 边 界 样本 ”和 “安全 样本 ”的 。 





7 
lo etea’ 。 多 数 类 样本 
LÈ ee we 6 ð J 
~g es m 少数 类 样本 
n PERE @ 边界 点 (多 数 类 ) 
& ae" “。"” 。 。 | O 噪声 点 (多 数 类 ) 
a a 7 ° 4? 。 
机 
© à we : 
a ee SS e 











7-7 BADR AE 


该 算法 的 采样 过 程 如 下 : 对 于 任意 两 个 不 同类 别 的 样本 Cy, y) » Ax, Aly, 
分 别 为 多 数 类 和 少数 类 样本 ， 首 先 计算 它们 之 间 的 距离 4 Ox, y) ， 然 后 判断 是 否 存 
在 某 个 样本 z， 使 得 z 到 x 或 ;距离 小 于 4 Cy, y) 。 如 果 不 存在 这 样 的 样本 点 ， 则 
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说 明 样本 点 x; 是 边界 点 或 噪声 点 ， 就 把 该 样本 点 从 多 数 类 样本 集中 删除 。 综 上 所 述 ， 
单 边 采样 算法 的 实质 就 是 寻找 距离 最 近 的 异类 样本 对 ， 然 后 把 其 中 的 多 数 类 样本 点 删 
除 。 单 边 采样 方法 过 程 如 图 7-7 所 示 。 图 中 圆 实 点 表示 多 数 类 样本 ， 方 形 样本 点 表示 
少数 类 样本 ， 虚 线 表 示 多 数 类 和 少数 类 的 分 界面 大 致 位 置 。 实 线 圆圈 和 虚线 圆圈 内 的 
多 数 类 样本 分 别 表示 多 数 类 的 边界 点 和 噪声 点 。 单 边 采样 算法 就 是 在 识别 出 边界 点 和 
噪声 点 之 后 ， 把 其 从 多 数 类 样本 集 别 除 ， 处 理 后 的 结果 如 图 7-8 所 示 。 








\ eo ee : A 。 多 数 类 样本 
AN 。。。。。。 | 日 少数 类 样本 
my .° -: oe 
ce ce ° a 
C] DN tars 
a e <5. 
a 图 = ee 








图 7-8 单 边 采样 后 样本 分 布 


G) 最 近邻 规则 。 因 为 随机 欠 抽 样 方法 未 考虑 样本 的 分 布 情况 ， 采 样 具有 很 大 
的 随机 性 ， 可 能 会 删除 重要 的 多 数 类 样本 信息 。 针 对 以 上 不 足 ， 研 究 者 提出 了 一 种 最 
近邻 规则 (Edited Nearest Neighbor, ENN) 。 其 基本 思想 是 ， 删 除 那些 类 别 与 其 最 近 
的 三 个 近邻 样本 中 的 两 个 或 两 个 以 上 类 别 不 同 的 样本 。 但 其 缺点 在 于 : 因为 大 多 数 的 
多 数 类 样本 附近 都 是 多 数 类 ， 所 以 该 方法 所 能 删除 的 多 数 类 样本 十 分 有 限 。 

(4) 领域 清理 规则 (NCL) 。 该 算法 的 整体 流程 如 图 7-9 所 示 。 该 算法 的 主要 
思想 是 : 针对 训练 样本 集中 的 每 个 样本 找 出 其 三 个 最 近邻 样本 ， 若 该 样本 是 多 数 类 样 
本 且 其 三 个 最 近邻 中 有 两 个 以 上 是 少数 类 样本 ， 则 删除 它 ， 反 之 ， 当 该 样本 是 少数 类 
并 且 其 三 个 最 近邻 中 有 两 个 以 上 是 多 数 类 样本 ， 则 删除 近邻 中 的 多 数 类 样本 。 其 缺 
陷 在 于 : 未 能 考虑 到 在 少数 类 样本 中 存在 的 噪声 样本 ， 而 且 第 二 种 方法 删除 的 多 数 
类 样本 大 多 属于 边界 样本 ， 删 除 这 些 样本 ， 对 后 续 分 类 器 的 分 类 将 产生 很 大 的 不 良 
影响 。 

(5) 还 有 一 种 基于 聚 类 的 欠 抽 样 算法 ， 先 用 聚 类 的 方法 将 训练 集 划 分 成 几 个 艇 ， 
每 个 簇 都 包含 一 定数 目的 多 数 类 和 少数 类 。 对 每 个 徐 ， 取出 其 中 所 有 的 少数 类 ， 然 后 
按照 一 定 规则 对 该 徐 中 的 多 数 类 进行 从 抽样 ， 最 后 将 从 每 个 簇 中 取出 的 样本 进行 合 
并 ， 得 到 一 个 新 的 训练 集 ， 对 其 进行 训练 。 
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图 7-9 领域 清理 规则 流程 


7.5.3 不 平衡 数据 的 处 理 方法 一 一 算法 层面 


除了 数据 层面 , 对 于 不 平衡 数据 集 的 解决 办 法 还 可 以 从 算法 层面 考虑 , 具体 包括 : 
代价 敏感 方法 、 集 成 学 习 方 法 、 单 类 分 类 器 方法 、 面 向 单个 正 类 的 FLDA 方法、 多 
类 数据 不 平衡 问题 的 解决 方法 ， 以 及 其 他 方法 。 本 节 着 重 讲述 代价 敏感 方法 。 


1. 代价 敏感 方法 


在 处 理 不 平衡 问题 时 ， 传 统 的 分 类 器 对 少数 类 的 识别 率 很 低 ， 对 多 数 类 的 识别 率 
却 很 高 ， 然 而 在 现实 生活 中 往往 是 少数 类 的 识别 率 更 为 重要 。 因 此 ， 少 数 类 的 错 分 代 
价 要 远 远 大 于 多 数 类 。 例 如 ， 在 入 侵 检 测 中 ， 可 能 在 1000 次 通信 中 只 有 少数 几 次 是 
攻击 ， 但 将 攻击 误 报 为 正常 和 将 正常 误 报 为 攻击 所 引起 的 代价 是 截然 不 同 的 。 在 代价 
敏感 方法 中 ， 代 价 信息 通常 由 领域 专家 给 出 ， 在 进行 学 习 时 假设 各 个 类 别 的 代价 信息 


是 已 知 的 ， 在 整个 学 习 过 程 中 固定 不 变 。 
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以 二 元 分 类 问题 举例 ， 我 们 用 阳性 类 (+ 或 +1) 表示 少数 类 ,用 阴性 类 (- 或 -1) 
表示 多 数 类 。 设 c (i, jf) 是 预测 某 实例 属于 i 类 而 实际 上 它 属于 7 类 带 来 的 成 本 ; 成 
本 矩阵 被 定义 于 表 7-7。 


表 7-7 MAE 














给 定 的 成 本 矩阵， 如 示例 x 可 以 被 分 类 为 类 别 i 的 预期 成 本 最 小 ， 通 过 使 用 贝 叶 
斯 风险 准则 〈 有 条 件 的 风险 ) : 


Ho = rein > zc (7-7) 


Jett} 
其 中 , PO 是 x 作为 j 类 分 类 例子 的 后 验 概率 , 假设 我 们 没有 正确 分 类 的 成 本 。 
所 以 说 成 本 矩阵 可 由 成 本 比 描述 : 


CostRatio=C (-, +) /C (+, -) (7-8) 
CSL 的 目的 是 建立 一 个 模型 ， 具 有 最 小 的 误 分 类 成 本 〈 总 成 本 ) : 
TotalCost=C (-, +) * FN+C (+, -) * FP (7-9) 


H FN All FP # 数 量 分 别 为 假 阴 性 和 假 阳性 的 例子 。 

目前 对 代价 敏感 方法 的 研究 主要 集中 在 以 下 两 个 方面 : 

CD) 根据 样本 的 不 同 错 分 代价 重 构 训练 集 ， 不 改变 已 有 的 学 习 算 法 。 重 构 训 练 
集 的 方法 是 根据 样本 的 不 同 错 分 代价 给 训练 集中 的 每 一 个 样本 加 权 ， 接 着 按 权 重 对 原 
始 样本 集 进行 重 构 。 其 存在 的 缺点 是 重 构 的 过 程 中 丢失 了 一 些 有 用 样本 的 信息 。 

(2) 在 传统 的 分 类 算法 的 基础 上 引入 代价 敏感 因子 ， 设 计 出 代价 敏感 的 分 类 算 
法 。 代 价 敏感 方法 中 不 同类 的 错 分 代价 是 不 同 的 ， 通 常 多 数 类 的 代价 比 少数 类 要 大 得 
多 ， 对 小 样本 赋予 较 高 的 代价 ， 大 样本 赋予 较 小 的 代价 ， 期 望 以 此 来 平衡 样本 之 间 的 
数目 差异 。 

2. 集成 学 习 方 法 

按照 基本 分 类 器 之 间 的 种 类 关系 可 以 把 集成 学 习 方 法 划分 为 异 态 集成 学 习 和 同 
态 集 成 学 习 两 种 。 异 态 集成 学 习 ， 指 的 是 使 用 各 种 不 同 的 分 类 器 进行 集成 。 同 态 集成 
学 习 ， 是 指 集 成 的 基本 分 类 器 都 是 同一 种 分 类 器 ， 只 是 这 些 基本 分 类 器 之 间 的 参数 有 
所 不 同 。 在 不 平衡 数据 的 分 类 问题 上 ， 由 于 异 态 集成 学 习 的 每 个 基本 算法 都 有 独到 之 
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处 ， 因 而 某 种 基本 算法 会 对 某 类 特定 数据 样本 比 其 余 的 基本 算法 更 为 有 效 。 同 态 集成 
学 习 方 法 中 针对 不 平衡 数据 的 多 数 是 把 抽样 与 集成 结合 起 来 ， 对 原始 训练 集 进行 一 系 
列 抽样 ， 产 生 多 个 分 类 器 ， 然 后 用 投票 或 合并 的 方式 输出 最 终结 果 。 

AdaBoost 应 用 于 不 平衡 数据 分 类 可 取得 较 好 效果 ， 但 有 实验 结果 表明 AdaBoost 
提高 正 类 样本 识别 率 的 能 力 有 限 ， 因 为 AdaBoost 是 以 整体 分 类 精度 为 目标 的 ， 负 类 
样本 由 于 数目 多 所 以 对 精度 的 贡献 大 ， 而 正 类 样本 由 于 数目 很 少 因此 贡献 相当 小 ， 故 
分 类 决策 是 不 利于 正 类 的 。 为 此 ， 一 些 改进 相继 被 提出 ， 如 AdaCost、RareBoost， 主 
要 策略 是 改变 权 值 更 新 规则 ， 使 分 类 错误 的 正 类 样本 比 负 类 样本 有 更 高 的 权 值 。 还 可 
以 将 过 抽样 与 集成 方法 进行 融合 ， 既 能 利用 过 抽样 的 优点 增加 少数 类 样本 的 数量 ， 使 
分 类 器 能 够 更 好 地 提高 少数 类 的 分 类 性 能 ， 又 能 利用 集成 方法 的 优点 提高 不 平衡 数据 
集 的 整体 分 类 性 能 。 

3. 单 类 分 类 器 方法 

在 实际 应 用 中 ， 有 时 想 要 获取 两 类 或 多 类 样本 是 很 难 的 ， 或 者 就 是 需要 很 高 的 成 
本 ， 和 否则 只 能 获取 单 类 样本 集 。 在 这 种 情况 下 ， 对 只 含有 单一 类 的 数据 进行 训练 是 唯 
一 可 能 的 解决 办 法 。 单 分 类 器 是 用 来 对 只 有 一 种 类 别 的 训练 集 进行 分 类 的 ， 它 是 一 个 
能 有 效 解 决 不 平衡 数据 问题 的 办 法 。 在 实际 算法 中 ， 可 以 用 SVM 来 对 正 类 进行 训练 ， 
实验 表明 该 方法 是 有 效 的 。 单 类 分 类 器 由 于 只 需要 一 类 数据 集 作为 训练 样本 ， 训 练 数 
据 量 变 小 了 ， 从 而 减少 了 构建 分 类 器 所 需要 的 时 间 ， 节 约 了 开销 ， 因 此 在 很 多 领域 都 
有 着 良好 的 应 用 前 景 。 

4. 其 他 方法 

主动 学 习 、 随 机 森林 、 子 空间 方法 、 特 征 选择 方法 和 SVM 模型 下 的 后 验 概率 求 
解 方法 等 ， 也 是 学 习 不 平衡 数据 集 的 有 效 方法 。 

总 而 言 之 ， 不 平衡 数据 的 存在 是 妨碍 机 器 学 习 被 广泛 使 用 的 一 个 重要 原因 。 近 年 
来 这 个 问题 引起 了 广泛 关注 。 不 平衡 问题 普遍 存在 于 许多 实际 应 用 领域 中 ， 其 中 研究 
者 特别 关注 少数 类 的 分 类 性 能 的 提高 。 针 对 数据 不 平衡 分 类 问题 ， 人 们 提出 了 很 多 的 
解决 方法 ， 并 且 取 得 了 一 定 的 进展 ， 但 仍 有 很 多 问题 需要 进行 深入 研究 ， 如 关于 算法 
的 效率 和 时 间 开 销 方面 研究 、 如 何 自 适应 地 确定 最 好 的 抽样 比例 等 。 目 前 ， 绝 大 多 数 
的 不 平衡 问题 的 研究 都 是 针对 数据 数目 比例 失衡 的 情况 来 考虑 的 ， 不 平衡 数据 还 有 男 
外 一 种 情况 ， 就 是 两 类 数据 数目 相当 ， 但 类 分 布 差别 较 大 ， 一 类 比较 集中 ; 另 一 类 比 
较 分 散 ， 目 前 关于 类 分 布 差异 的 研究 较 少 。 此 外 ， 如 何 将 特征 选择 方法 融入 不 平衡 分 
类 算法 中 也 是 今后 需要 进一步 研究 的 问题 。 
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数据 挖掘 技术 对 海量 的 电信 运营 商 客户 数据 进行 挖掘 分 析 的 例子 中 ， 有 个 非常 典 
型 的 案例 就 是 ， 通 过 如 五 、 六 月 的 数据 来 预测 七 、 八 月 客户 的 行为 (是 否 流失 、 倾 向 
于 订购 何 种 套餐 ) 。 但 这 种 方式 忽略 了 一 个 非常 重要 的 时 间 因 素 。5 月 、6 月 的 数据 
可 能 已 经 不 能 够 非常 精 准 地 对 一 部 分 用 户 进行 画像 。 例 如 ， 一 些 大 学 生 可 能 因为 放 哮 
假 从 学 校 回 家 ， 环 境 因素 的 变化 对 套餐 的 使 用 情况 会 产生 很 大 的 影响 。 因 此 ， 我 们 需 
要 改进 我 们 的 算法 ， 从 而 能 够 解决 这 种 使 用 相关 数据 集 解决 目标 任务 的 问题 。 


76.1 迁移 学 习 的 基本 原理 


在 传统 的 机 器 学 习 的 框架 下 ， 学 习 的 任务 首先 就 是 在 给 定 充分 训练 数据 的 基础 上 
来 学 习 一 个 分 类 模型 , 然后 利用 这 个 学 习 到 的 模型 对 测试 文档 进行 分 类 与 预测 。 然而 ， 
我 们 看 到 机 器 学 习 算法 在 当前 的 Web 挖掘 研究 中 存在 着 一 个 关键 的 问题 : 一些 新 出 
现 领 域 中 的 大 量 训练 数据 非常 难得 到 。 我 们 看 到 Web 应 用 领域 的 发 展 非常 迅速 。 大 
量 新 的 领域 不 断 涌现 ， 从 传统 的 新 闻 ， 到 网 页 、 图 片 ， 再 到 博客 、 播 客 ， 等 等 。 传 统 
的 机 器 学 习 需 要 对 每 个 领域 都 标定 大 量 训练 数据 ， 这 将 会 耗费 大 量 的 人 力 与 物力 。 而 
没有 大 量 的 标注 数据 ， 会 使 得 很 多 与 机 器 学 习 相 关 的 研究 与 应 用 无 法 开展 。 其 次 ， 传 
统 的 机 器 学 习 假 设 训 练 数据 与 测试 数据 服从 相同 的 数据 分 布 ， 然 而 ， 在 许多 情况 下 ， 
这 种 同 分 布 假设 并 不 满足 。 通 常 可 能 发 生 如 训练 数据 过 期 的 情况 。 这 往往 需要 我 们 去 
重新 标注 大 量 的 训练 数据 以 满足 我 们 训练 的 需要 ， 但 标注 新 数据 成 本 是 非常 昂贵 的 ， 
需要 大 量 的 人 力 与 物力 。 从 另 一 个 角度 来 看 ， 如 果 我 们 有 了 大 量 的 、 在 不 同 分 布下 的 
训练 数据 ， 完 全 丢弃 这 些 数 据 也 是 非常 浪费 的 。 如 何 合理 地 利用 这 些 数据 就 是 迁移 学 
习 主 要 解决 的 问题 。 迁 移 学 习 可 以 从 现 有 的 数据 中 迁移 知识 ， 用 来 帮助 将 来 的 学 习 。 
迁移 学 习 〈Transfer Learning) 的 目标 是 将 从 一 个 环境 中 学 到 的 知识 用 来 帮助 新 环境 
中 的 学 习 任务 。 因 此 ， 迁 移 学习 不 会 像 传统 机 器 学 习 那 样 做 同 分 布 假设 。 

图 7-10 显示 了 传统 机 器 学 习 与 迁移 学 习 之 间 的 关系 。 从 图 中 可 以 看 出 ， 传 统 的 
算法 都 是 试图 从 头 开始 学 习 ， 而 迁移 学 习 算 法 试图 将 以 前 学 习 到 的 知识 迁移 到 目标 任 
务 。 这 一 方法 在 目标 任务 的 数据 较 少 时 ， 效 果 尤 为 明显 。 
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分 类 模型 1| “| 分 类 模型 2 分 类 模型 3 
(a) 传统 机 器 学 习 的 学 习 过 程 O 迁移 学 习 的 学 习 过 程 
图 7-10 迁移 学 习 与 传统 机 器 学 习 对 比 
































首先 定义 域 的 概念 。D= KK，PCO}， 由 两 部 分 组 成 , X 表示 特征 空间 ，PCD 表示 
WARY AG, FEHR X={x,, ++, x} EX。 接 下 来 定义 任务 的 概念 。7T={Y, f(*)}， 
同样 由 两 部 分 组 成 ， 类 标签 二 fy ，…，y} 和 通过 学 习 {x;，y} 对 得 到 的 目标 预测 函 
HS) 

定义 迁移 学 习 : 给 定 一 个 源 域 Ds 和 源 域 的 学 习 任 务 7;， 一 个 目标 域 D, 和 学 习 任 
务 T。 迁 移 学 习 的 目的 就 是 使 用 Ds 和 Ts 的 知识 ， 提 升 D, 中 目标 预测 函数 A(，) 的 学 
习 能 力 ， 这 里 Ds 关 D, MH Ts ~ T, 

在 上 面 的 定义 中 ，Ds 关 D, 可 以 是 Xxs 关 4， 也 可 以 是 P(X) # P(X). FFE HE, 
Ts AT, AWE YS AY, HAWES ) ASC + )o 


76.2 迁移 学 习 的 分 类 


我 们 在 迁移 学 习 方 面 的 工作 目前 可 以 分 为 以 下 三 个 部 分 : 同 构 空 间 下 基于 实例 的 
迁移 学 习 、 同 构 空间 下 基于 特征 的 迁移 学 习 与 异 构 空间 下 的 迁移 学 习 。 研 究 指出 ， 基 
于 实例 的 迁移 学 习 有 更 强 的 知识 迁移 能 力 ， 基 于 特征 的 迁移 学 习 具 有 更 广泛 的 知识 迁 
移 能 力 , 而 异 构 空间 的 迁移 具有 广泛 的 学 习 与 扩展 能 力 。 这 三 种 方法 各 有 各 自 的 优点 ， 
现 将 这 三 种 方法 介绍 如 下 。 

1. 同 构 空间 下 基于 实例 的 迁移 学 习 

基于 实例 的 迁移 学 习 的 基本 思想 是 ， 尽 管 辅助 训练 数据 和 源 训 练 数 据 或 多 或 少 会 
有 些 不 同 ， 但 辅助 训练 数据 中 应 该 还 是 会 存在 一 部 分 比较 适合 用 来 训练 一 个 有 效 的 分 
类 模型 ， 并 且 适 应 测试 数据 。 于 是 ， 我 们 的 目标 就 是 从 辅助 训练 数据 中 找 出 那些 适合 
测试 数据 的 实例 ， 并 将 这 些 实例 迁移 到 源 训练 数据 的 学 习 中 。 在 基于 实例 的 迁移 学 习 
方面 ， 我 们 推广 了 传统 的 AdaBoost 算法 ， 提 出 一 种 具有 迁移 能 力 的 Boosting 算法 
TrAdaBoosting， 使 之 具有 迁移 学 习 的 能 力 ， 从 而 能 够 最 大 限度 地 利用 辅助 训练 数据 
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来 帮助 目标 域 的 分 类 。 我 们 的 关键 想法 是 ， 利 用 Boosting 技术 来 过 滤 掉 辅助 数据 中 
那些 与 源 训练 数据 最 不 像 的 数据 。 其 中 ，Boosting 的 作用 是 建立 一 种 自动 调整 权重 的 
机 制 ， 于 是 重要 的 辅助 训练 数据 的 权重 将 会 增加 ， 不 重要 的 辅助 训练 数据 的 权重 将 会 
减 小 。 调 整 权重 之 后 ， 这 些 带 权重 的 辅助 训练 数据 将 会 作为 额外 的 训练 数据 ， 与 源 训 
练 数据 一 起 来 提高 分 类 模型 的 可 靠 度 。 

基于 实例 的 迁移 学 习 只 能 发 生 在 源 数据 与 辅助 数据 非常 相近 的 情况 下 。 但 是 ， 当 
源 数据 和 辅助 数据 差别 比较 大 的 时 候 ， 基 于 实例 的 迁移 学 习 算 法 往往 很 难 找到 可 以 迁 
移 的 知识 。 但 我 们 发 现 ， 即 便 有 时 源 数据 与 目标 数据 在 实例 层面 上 并 没有 共享 一 些 公 
共 的 知识 ， 它 们 可 能 会 在 特征 层面 上 有 一 些 交 集 。 因 此 ， 我 们 研究 了 基于 特征 的 迁移 
学 习 ， 它 讨论 的 是 如 何 利 用 特征 层面 上 公共 的 知识 进行 学 习 的 问题 。 

2. 同 构 空间 下 基于 特征 的 迁移 学 习 

在 基于 特征 的 迁移 学 习 研 究 方面 ， 我 们 提出 了 多 种 学 习 的 算法 ， 如 CoCC 算法 、 
TPLSA 算法 、 谱 分 析 算 法 与 自学 习 算法 等 。 其 中 利用 互 聚 类 算法 产生 一 个 公共 的 特 
征 表示 ， 从 而 帮助 学 习 算 法 。 我 们 的 基本 思想 是 ， 使 用 互 聚 类 算法 同时 对 源 数 据 与 辅 
助 数据 进行 聚 类 ， 得 到 一 个 共同 的 特征 表示 ， 这 个 新 的 特征 表示 优 于 只 基于 源 数 据 的 
特征 表示 。 通 过 把 源 数据 表示 在 这 个 新 的 空间 里 ， 以 实现 迁移 学 习 。 应 用 这 个 思想 ， 
我 们 提出 了 基于 特征 的 有 监督 迁移 学 习 与 基于 特征 的 无 监督 迁移 学 习 。 

(1) 基于 特征 的 有 监督 迁移 学 习 

我 们 在 基于 特征 的 有 监督 迁移 学 习 方面 的 工作 是 基于 互 聚 类 的 跨 领 域 分 类 ， 这 个 
工作 考虑 的 问题 是 : 当 给 定 一 个 新 的 、 不 同 的 领域 ， 标 注 数据 极其 稀少 时 ， 如 何 利用 
原 有 领域 中 含有 的 大 量 标注 数据 进行 迁移 学 习 的 问题 。 在 基于 互 聚 类 的 跨 领 域 分 类 这 
个 工作 中 ， 我 们 为 跨 领 域 分 类 问题 定义 了 一 个 统一 的 信息 论 形式 化 公式 ， 其 中 基于 互 
聚 类 的 分 类 问题 转化 成 对 目标 函数 的 最 优化 问题 。 在 我 们 提出 的 模型 中 ， 目 标 函 数 被 
定义 为 源 数据 实例 ， 公 共 特 征 空间 与 辅助 数据 实例 间 相 互信 息 的 损失 。 

(2) 基于 特征 的 无 监督 迁移 学 习 : 自学 习 聚 类 

我 们 提出 的 自学 习 聚 类 算法 属于 基于 特征 的 无 监督 迁移 学 习 方面 的 工作 。 这 里 我 
们 考虑 的 问题 是 : 现实 中 可 能 有 标记 的 辅助 数据 都 难以 得 到 ， 在 这 种 情况 下 如 何 利用 
大 量 无 标记 数据 辅助 数据 进行 迁移 学 习 的 问题 。 自 学 习 聚 类 的 基本 思想 是 ， 通 过 同时 
对 源 数据 与 辅助 数据 进行 聚 类 得 到 一 个 共同 的 特征 表示 ， 而 这 个 新 的 特征 表示 由 于 基 
于 大 量 的 辅助 数据 ， 所 以 会 优 于 仅 基于 源 数 据 而 产生 的 特征 表示 ， 从 而 对 聚 类 产生 帮助 。 

上 面 提出 的 两 种 学 习 策 略 〈 基 于 特征 的 有 监督 迁移 学 习 与 无 监督 迁移 学 习 ) 解 
决 的 都 是 源 数据 与 辅助 数据 在 同一 特征 空间 内 的 基于 特征 的 迁移 学 习 问题 。 当 源 数据 
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与 辅助 数据 所 在 的 特征 空间 中 不 同时 ， 我 们 还 研究 了 跨 特 征 空间 的 基于 特征 的 迁移 学 
习 ， 它 也 属于 基于 特征 的 迁移 学 习 的 一 种 。 

3. 异 构 空 间 下 的 迁移 学 习 : 翻译 学 习 

翻译 学 习 致力 于 解决 源 数据 与 测试 数据 ， 分 别 属 于 两 个 不 同 的 特征 空间 下 的 情 
况 。 使 用 大 量 容易 得 到 的 标注 过 文本 数据 去 帮助 仅 有 少量 标注 的 图 像 分 类 的 问题 ， 如 
图 7-10 所 示 。 我 们 的 方法 基于 使 用 那些 用 有 两 个 视角 的 数据 来 构建 沟通 两 个 特征 空 
间 的 桥梁 。 虽 然 这 些 多 视角 数据 可 能 不 一 定 能 够 用 来 做 分 类 用 的 训练 数据 ， 但 它们 可 
以 用 来 构建 翻译 器 。 通 过 这 个 翻译 器 ， 我 们 把 近邻 算法 和 特征 翻译 结合 在 一 起 ， 将 辅 
助 数 据 翻 译 到 源 数 据 特征 空间 里 去 ， 用 一 个 统一 的 语言 模型 来 进行 学 习 与 分 类 。 


763 迁移 学 习 与 数据 挖掘 


数据 挖掘 的 学 习 技 术 已 经 在 知识 工程 领域 包括 分 类 、 回 归 和 聚 类 等 取得 了 相当 大 
的 成 功 。 但 是 ， 当 数据 分 布 规律 改变 的 时 候 ， 大 多 数 统计 模型 需要 使 用 新 的 训练 数据 
来 重建 。 在 现实 世界 的 许多 应 用 中 ,这 样 做 付出 的 代价 是 非常 大 的 ， 甚 至 是 不 可 能 的 。 
所 以 ， 减 小 重新 收集 训练 数据 的 必要 性 和 工作 量 就 成 了 非常 有 必要 的 一 件 事 。 也 就 是 
说 ， 在 不 同 任务 领域 间 的 知识 转换 或 迁移 学 习 能 取得 令 人 满意 的 成 效 。 接 下 来 ， 介 绍 
两 种 迁移 学 习 和 数据 挖掘 相 结合 的 算法 。 

1. 决策 树 中 的 迁移 学 习 ( Transfer Learning in Decision Tree, TDT ) 

如 图 7-11 Pras, FES 1 代表 以 前 学 习 到 的 任务 ， 任 务 2 代表 一 个 新 的 学 习 任务 。 
把 任务 1 和 任务 2 的 关系 分 为 以 下 几 类 。 类 型 1 表示 两 种 任务 共享 一 部 分 相同 的 特征 。 
类 型 2 表示 任务 1 是 任务 2 的 子 集 。 类 型 3 表示 任务 2 是 任务 1 的 子 集 。 类 型 4 表示 
两 个 任务 集 的 关系 不 能 进行 迁移 。 


图 7-11 任务 1 和 任务 2 关系 














第 7 章 增强 型 数据 挖掘 算法 299 | 





算法 7.3 ”使 用 迁移 算法 生成 决策 树 


输入 : 源 树 Tomer 目标 任务 训练 集 S; 
输出 : 目标 树 卫 。。 ers 
下 
IO ~- T, ue a PEE, S 中 不 存在 的 属性 ; 
IIFor O 中 的 每 个 属性 A; 
IV. For S 中 的 每 个 实例 天 
VA Ieee 分 类 S; 
VI. 下 分 类 正确 ; 
VI 什么 也 不 做 ; 
VIII. Else; 
IX. 用 表示 4 的 新 结 点 替换 卫 。。。 的 类 结 点 ; 
X. 向 结 点 4 添加 新 分 支 ， 标 记 为 4 在 T 中 的 值 ; 
XI 将 叶子 结 点 添加 到 新 分 支 ， 标 记 为 了 的 目标 类 标签 ; 
XII. End For; 
XII. For S 中 的 每 个 实例 天 
XIV. H Thang ea OA S; 
XV. If 分 类 正确 ; 
XVI 什么 也 不 做 ; 
XVII. Else; 
XVII. 向 结 点 4 添加 新 分 支 ， 标 记 为 4 在 I 中 的 值 ; 
XIX. 将 叶子 结 点 添加 到 新 分 支 ， 标 记 为 了 的 目标 类 标签 ; 
XX. End For; 
XXI. Return T, sg er o 
TDT 算法 建立 在 类 型 2 的 基础 上 ， 算 法 的 伪 代 码 如 算法 7.3 所 示 。 可 以 注意 到 对 
于 每 个 属性 ， 决 策 树 对 每 个 实例 判决 了 两 次 。 这 是 因为 这 颗 决策 树 随 着 匹配 实例 的 
过 程 发 生 了 一 系列 的 改变 。 判 决 两 次 可 以 防止 一 些 实例 被 预先 正确 匹配 而 被 跳 过 的 
情况 发 生 。 
2. 基于 协 变量 的 迁移 森林 ( Transfer Forest Based on Covariate Shift, TFCS ) 
这 是 一 个 数据 层面 的 迁移 学 习 ， 我 们 有 目标 域 和 源 域 的 样本 集 分 别 为 D, 和 D, 
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源 域 的 样本 分 布 p.(x) 一 般 情况 下 是 不 同 于 目标 域 的 分 布 p, (x) 。 我 们 使 用 条 件 概 
率 分 布 P (ylx) 来 衡量 源 域 的 数据 样本 是 否 适合 于 目标 域 。 对 于 那些 与 目标 域 条 件 概 
率 相差 太 远 的 源 域 样本 ， 在 这 里 视 为 噪声 。 因 此 ， 定 义 协 损 变量 : 
a-2OI®) 
Pp.) 
用 协 损 变量 来 给 每 一 个 源 域 样 本 一 个 合适 的 权重 。 训 练 迁移 森林 的 步骤 如 图 7-12 
所 示 ， 具 体 过 程 为 : 





(7-10) 
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图 7-12 迁移 森林 的 训练 过 程 


(1) 从 源 域 样本 集 和 目标 域 样本 集中 分 别 随机 挑选 相同 数量 的 样本 ， 创 建 一 个 
子 集 。 

(2) 子 集中 的 每 个 样本 被 协 损 变量 4 赋予 一 个 权重 ， 然 后 训练 一 棵 决策 树 。 

G) 第 2 步 建立 的 决策 树 ， 作 为 迁移 森林 的 一 棵 候选 树 。 并 用 迁移 森林 和 用 源 
域 样本 建立 的 随机 森林 更 新 协 损 变 量 4。 

(4) 重复 以 上 几 步 ， 直 到 获得 较 大 数量 的 迁移 森林 的 候选 树 。 

(5) 选中 候选 树 的 后 半 部 分 作为 迁移 森林 。 
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764 迁移 学 习 的 发 展 


在 人 工 智 能 应 用 的 通用 性 不 断 增 强 的 背景 下 ， 迁 移 学 习 异 军 突起 。 作 为 国内 迁 
移 学 习 研 究 的 先行 者 ， 杨 强 教 授 于 2010 年 在 IEEE Transactions on knowledge and data 
engineering 上 发 表 了 一 篇 详细 解释 迁移 学 习 的 论文 : A Survey on Transfer Learning, 
其 中 对 迁移 学 习 的 概念 、 与 机 器 学 习 几 个 传统 方法 的 区 别 以 及 一 些 常用 的 迁移 学 习 方 
法 都 做 出 了 解释 。 杨 强 教授 作为 首位 美国 人 工 智 能 协会 (AAAI) 华人 Fellow， 并 于 
2016 年 6 月 ， 成 为 AAAI 首位 华人 执行 委员 会 委员 ， 唯 一 AAAI 华人 Councilor， 国 
际 项 级 学 术 会 议 KDD、IJCAI 等 大 会 主席 ， 香 港 科 技 大 学 计算 机 与 工程 系 主任 ， 在 
国内 外 机 器 学 习 界 声誉 卓著 ， 并 作为 国内 人 工 智 能 创业 公司 第 四 范式 首席 科学 家 ， 积 
极 推广 人 工 智能 技术 在 国内 的 发 展 。 

自动 化 、 智 能 化 的 机 器 学 习 的 关键 技术 之 一 就 是 将 深度 学 习 、 强 化 学 习 和 迁移 学 
JAHA Reinforcement Transfer Learning, RTL) 。 杨 强 认 为 ， 人 工 智 能 成 功 的 五 
个 必要 条 件 包括 大 数据 、 问 题 边界 清晰 、 外 部 反馈 、 计 算 资源 和 顶级 数据 科学 家 ， 强 化 学 
习 和 迁移 学 习 分 别 能 够 提供 的 反馈 和 适应 性 是 单独 的 深度 学 习 模 型 所 不 具备 的 ， 同 时 深度 
学 习 的 重心 已 经 从 研究 转向 工业 应 用 , 深度 学 习 、 强化 学 习 和 迁移 学 习 关系 如 图 7-13 所 示 。 


poe ae aoe 
征 
(FEATURES) is pre 


图 7-13 ”深度 学 习 、 强 化 学 习 和 迁移 学 习 关 系 图 

















迁移 学 习 主 要 解决 两 个 问题 。 

(1) 小 数据 的 问题 。 例 如 ， 某 老板 计划 在 新 开 的 网 店 中 售卖 一 种 新 的 糕点 ， 由 
于 缺少 历史 销售 数据 ， 无 法 建立 模型 筛选 目标 客户 进行 精准 推荐 。 但 客户 在 购物 中 商 
品 间 存在 一 定 的 关联 关系 ， 因 此 在 购物 中 可 以 根据 客户 在 其 他 商品 中 的 行为 习惯 ， 如 
对 饮品 的 购买 数据 ， 构 建 客户 对 饮品 的 偏好 模型 。 再 根据 商品 间 的 关联 关系 ， 即 糕点 
与 饮品 见 的 关联 关系 ， 将 对 饮品 的 推荐 模型 迁移 到 糕点 模型 中 ， 这 样 ， 在 小 数据 的 情 
况 下 ， 可 以 提升 商品 的 推荐 成 功率 。 这 个 例子 说 明 ， 当 有 两 个 领域 ， 一 个 领域 已 经 积 
累 大 量 的 数据 ， 能 成 功 构建 模型 ， 而 另 一 个 领域 数据 缺失 时 ， 若 两 个 领域 存在 关联 关 
系 ， 该 模型 是 可 迁移 应 用 的 。 

(2) 个 性 化 的 问题 。 例 如 ， 每 个 人 都 希望 自己 的 手机 能 够 记 住 一 些 习惯 ， 这 样 
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不 用 每 次 都 去 设 定 它 ， 但 是 怎样 才能 让 手机 记 住 这 一 点 呢 ? 其 实 可 以 通过 迁移 学 习 把 
一 个 通用 用 户 使 用 手机 的 模型 迁移 到 个 性 化 的 数据 上 面 。 未 来 这 种 场景 将 会 普遍 存在 。 

目前 迁移 学 习 的 一 个 难点 是 跨 领 域 迁 移 。 一 般 的 迁移 学 习 是 在 领域 里 不 同 的 业务 
之 间 的 迁移 ， 然 而 跨 领 域 迁 移 ， 例 如 ， 网 络 搜索 迁移 到 推荐 ， 图 像 识 别 迁 移 到 文本 识 
别 ， 这 些 仅 在 学 术 界 有 较为 深入 研究 ， 但 是 如 何 把 它 应 用 到 工业 界 ， 还 需 拭 目 以 待 。 
跨 领 域 的 迁移 是 要 有 耐心 和 足够 的 积累 才 可 以 发 现 不 同 领域 之 间 的 关联 。 以 医疗 企业 
为 例 ， 在 基因 检测 领域 已 经 累积 了 大 量 数据 ， 体 检 也 累积 了 大 量 数据 ， 但 基因 检测 和 
体检 是 两 个 不 同 的 领域 ， 所 以 它们 之 间 的 关联 很 少 ， 但 当 我 们 有 了 用 户 的 行为 数据 ， 
对 用 户 有 长 期 的 跟踪 ， 就 可 以 把 这 两 个 数据 领域 关联 起 来 。 

另外 ， 迁 移 学 习 还 需要 关注 偏 数据 的 处 理 。 例 如 ， 在 室外 有 GPS, BARA, 
怎么 办 呢 ? 要 定位 一 个 很 大 的 商场 ， 其 中 一 个 办 法 是 用 Wi-Fi 来 定位 ， 拿 一 个 手机 
App 收集 很 多 的 信号 数据 用 来 训练 ， 但 这 个 数据 很 容易 偏 ， 即 数据 收集 的 时 候 和 下 一 
刻 分 布 是 不 一 样 的 ， 是 不 是 需要 重新 地 收集 一 遍 ? 从 时 间 和 成 本 角度 考虑 ， 不 可 能 每 
个 小 时 收集 一 遍 室 内 的 数据 ， 此 时 对 收集 的 数据 用 迁移 学 习 方 法 消除 偏差 ， 用 点 到 点 
的 距离 ， 通 过 校正 的 方法 ， 或 者 称 为 加 权 法 ， 即 对 历史 数据 加 权 ， 使 得 历史 数据 和 现 
在 数据 比较 近 的 那些 数据 的 权重 比较 大 ， 比 较 远 的 数据 的 权重 逐渐 变 小 ， 在 欠 代 多 次 
以 后 ， 剩 下 的 数据 就 是 跟 现在 的 数据 类 似 的 数据 了 。 现 在 迁移 学 习 在 室内 定位 的 领域 
已 有 较 多 应 用 。 

形象 来 说 ， 目 前 对 迁移 学 习 的 研究 主要 集中 在 ， 可 以 从 其 他 已 经 学 习 到 的 知识 ， 
应 用 到 目标 任务 ， 目 标 任务 在 此 基础 上 进行 学 习 ， 而 不 是 从 头 学 习 。 类 似 于 人 在 学 会 
了 一 款 游 戏 后 ， 可 以 很 容易 得 上 手 类 似 的 游戏 。 当 人 类 看 到 一 个 恐龙 的 图 片 ， 之 后 给 
的 恐龙 多 么 古怪 ， 毛 发 ， 颜 色 ， 特 征 都 不 一 样 ， 但 是 人 类 依然 可 以 相当 轻松 地 知道 这 
是 恐龙 。 接 下 来 ， 学 习 算 法 还 希望 能 够 像 人 们 一 样 可 以 举一反三 ， 目 前 已 经 有 一 些 学 
术 研 究 ， 称 之 为 泛 化 学 习 〈Generative learning) 。 继 续 发 展 ， 就 是 一 种 称 为 分 层 学 习 
的 简 算法 (Hierarchical learning) 。 其 大 致 想法 是 希望 机 器 能 跟 人 类 一 样 从 1+1=2 慢 
慢 学 会 微 积分 。 从 而 真正 达到 强人 工 智能 。 
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本 章 围 绕 数据 挖掘 技术 具体 应 用 展开 。 前 六 节 针 对 运营 商 在 智慧 运营 的 过 程 中 需 
要 解决 的 合约 机 外 呼 营销 、 多 种 互联 网 业务 的 精准 推送 、 套 餐 精 准 适 配 、 客 户 保有 和 
投诉 预警 问题 分 别 进行 了 详细 的 分 析 、 建 模 、 落 地 及 优化 。8.7 节 介 绍 了 数据 栅 格 化 
的 原理 ， 以 及 在 四 网 协同 问题 中 的 具体 应 用 。8.8 节 主 要 介绍 了 几 种 数据 挖掘 技术 在 
无 线 室内 定位 方面 的 应 用 。 


面 对 电 信 市 场 竞争 的 加 剧 和 信息 技术 的 发 展 ， 运 营 商 必 须 建立 “以 客户 为 中 心 ” 
的 管理 模式 。 因 此 ， 利 用 数据 挖掘 技术 对 海量 的 客户 数据 进行 挖掘 分 析 ， 从 中 发 现 
各 种 潜在 的 、 有 价值 的 规律 性 的 知识 ， 是 当前 运营 商 提升 客户 关系 管理 (Customer 
Relation Management, CRM) 水 平 的 重要 手段 ， 具 有 较 大 的 理论 意义 和 应 用 价值 。 
数据 挖掘 技术 在 运营 商 的 智慧 运营 中 主要 有 如 下 四 个 方面 的 应 用 。 

1. 精准 营销 

在 移动 互联 网 时 代 ， 基 于 数据 的 商业 智能 应 用 为 运营 商 带 来 巨大 价值 。 通 过 大 数 
据 挖掘 和 处 理 ， 可 以 改善 用 户 体验 ， 及 时 准确 地 进行 业务 推荐 和 客户 关怀 ;提升 网 络 
质量 ， 调 整 资源 配置 ， 助 力 市 场 决 策 ， 快 速 准 确 地 确定 公司 管理 和 市 场 竞争 策略 。 例 
如 ， 对 使 用 环节 如 流量 日 志 数据 的 分 析 可 帮助 区 分 不 同 兴趣 关注 的 人 群 ， 对 设置 环节 
如 HLR/HSS 数据 的 分 析 可 帮助 区 分 不 同 活动 范围 的 人 群 ， 对 购买 环节 如 CRM 的 分 
析 可 帮助 区 分 不 同 购买 力 和 信用 度 的 人 群 ， 这 样 针对 新 的 商旅 套餐 或 导航 服务 的 营销 
案 就 可 以 更 精准 地 向 平时 出 行 范围 较 大 的 人 士 进行 投放 。 

2. 网 络 提升 

互联 网 技术 在 不 断 发 展 ， 基 于 网 络 的 信 令 数据 也 在 不 断 增 长 ， 这 给 运营 商 带 来 了 
巨大 的 挑战 ， 只 有 不 断 提高 网 络 服务 质量 ， 才 有 可 能 满足 客户 的 存储 需求 。 在 这 样 的 
外 部 刺激 下 ， 运 营 商 不 得 不 尝试 大 数据 的 海量 分 布 式 存储 技术 、 智 能 分 析 技术 等 先进 
技术 ， 努 力 提高 网 络 维护 的 实时 性 ， 预 测 网 络 流量 峰值 ， 预 警 异常 流量 ， 防 止 网 络 堵 
塞 和 宕 机 ， 为 网 络 改造 、 优 化 提供 参考 ， 从 而 提高 网 络 服务 质量 ， 提 升 用 户 体验 。 

3. 互联 网 金融 

通信 行业 的 大 数据 应 用 于 金融 行业 目前 是 征 信 领域。 中 国联 通 与 招商 银行 成 立 的 
“ 招 联 消 费 金融 公司 ” 即 是 较 好 案例 。 这 种 合作 模式 的 优势 主要 体现 在 招商 银行 有 对 
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客户 信用 评级 的 迫切 需求 ， 而 联通 拥有 大 量 真 实 而 全 面 的 用 户 信息 。 当 招行 需要 了 解 
某 位 潜在 客户 的 信用 或 个 人 情况 时 , 可 向 联通 发 起 申请 获得 数据 , 或 者 给 出 某 些 标签 。 
类 似 于 此 的 商业 模式 将 会 在 互联 网 金融 大 发 展 时 期 获得 更 多 重视 。 目 前 ， 国 内 互联 网 
金融 发 展 的 一 大 壁垒 即 是 信用 体系 的 缺失 ， 而 运营 商 拥有 的 宝贵 大 数据 将 是 较 好 的 解 
决 渠道 之 一 。 

4. 合作 变现 

随 着 大 数据 时 代 的 来 临 ， 数 据 量 和 数据 产生 的 方式 发 生 了 重大 的 变革 ， 运 营 商 掌 
握 的 信息 更 加 全 面 和 丰满 ， 这 无 疑 为 运营 商 带 来 了 新 的 商机 。 目 前 运营 商 主要 掌握 
的 信息 包括 移动 用 户 的 位 置信 息 、 信 令 信息 等 。 就 位 置信 息 而 言 ， 运 营 商 可 以 通过 
位 置信 息 的 分 析 ， 得 到 某 一 时 刻 某 一 地 点 的 用 户 流量 ， 而 流量 信息 对 于 大 多 数 商家 
具有 巨大 的 商业 价值 。 通 过 对 用 户 位 置信 息 和 指令 信息 的 历史 数据 和 当前 信息 分 析 
建 模 可 以 服务 于 公共 服务 业 ， 指 挥 交 通 、 应 对 突 发 事件 和 重大 活动 ， 也 可 以 服务 于 
现代 的 零售 行业 。 运 营 商 可 以 在 数据 中 心 的 基础 上 ， 搭 建 大 数据 分 析 平台 ， 通 过 自 
己 采 集 或 者 第 三 方 提供 等 方式 汇聚 数据 ， 并 对 数据 进行 分 析 ， 为 相关 企业 提供 分 析 
报告 。 在 未 来 ， 这 将 是 运营 商 重要 的 利润 来 源 之 一 。 例 如 ， 通 过 系统 平台 对 使 用 者 
的 位 置 和 运动 轨迹 进行 分 析 ， 实 现 热 点 地 区 的 人 群 分 布 的 概率 性 有 效 统计 ， 对 景区 、 
商场 、 学 校 等 场景 的 人 流量 进行 监测 和 管控 。 


数字 化 转型 浪潮 席卷 全 球 ， 推 动 价值 流动 模式 的 转变 ， 跨 界 竞争 导致 各 行业 必须 
以 生态 建设 为 主导 ， 重 视 和 依靠 数据 挖 握 ， 对 内 提升 企业 运营 效率 ， 对 外 拓展 盈利 空 
间 ， 以 应 对 激烈 竞争 。 同 时 ， 大 数据 热浪 的 推进 ， 为 手 握 大 把 数据 资源 的 运营 商 带 来 
了 机 遇 。 运 营 商 如 何 抓 住 这 难得 的 机 会 ， 挖 掘 出 “数据 金 矿 ” 的 价值 ， 选 对 应 用 方向 
很 重要 。 

移动 互联 网 时 代 掌 控 手 机 终端 成 为 各 大 运营 商 维系 客户 与 扩大 市 场 的 战略 重心 ， 
各 运营 商 在 终端 营销 上 均 面 临 着 通信 市 场 日 趋 饱和 、 被 互联 网 异 质 业务 管道 化 、 客 户 
转化 质量 与 效益 较 低 等 问题 ， 迫 切 需 要 挖掘 海量 客户 及 行为 数据 的 价值 ， 提 升 精细 化 
管理 水 平 。 数 据 挖掘 的 引入 将 成 为 重要 抓 手 。 
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8.2.1 总 结 历史 营销 规律 


以 某 一 通用 样本 数据 分 析 为 例 ， 该 数据 为 某 运 营 商 外 呼 营销 4G 终端 的 历史 数据 ， 
KERT 2 万 位 客户 的 18 个 属性 字段 ， 包 括 客户 的 基本 信息 及 营销 状态 〈1 代表 营 
销 成 功 ; 0 代表 营销 未 成 功 ) ， 表 8-1 为 4G 终端 营销 数据 的 所 有 字段 信息 。 如 何 通 
过 这 部 分 历史 营销 数据 ， 利 用 数据 挖掘 的 方法 ， 挖 掘 出 4G 终端 营销 潜在 的 客户 群体 
是 本 节 主 要 内 容 。 

由 于 本 节 建 模 的 目标 是 挖掘 出 业务 营销 目标 客户 的 特征 ， 结 合 本 书 第 一 章 到 第 
七 章 所 论述 的 原理 与 方法 ， 考 虑 到 模型 的 可 解释 性 ， 拟 采用 分 类 分 析 中 的 决策 树 算法 
作为 预测 模型 构建 的 基础 算法 。 依 据 数据 挖掘 的 基本 流程 ， 数 据 预 处 理 是 模型 构建 前 
必 不 可 少 的 步骤 。 回 顾 第 二 章 的 内 容 ， 数 据 预 处 理 主要 包括 奇异 值 (或 噪声 数据 ) 处 理 、 
字段 缺失 处 理 、 字 段 相关 性 分 析 以 及 字段 类 型 转换 〈 如 字符 串 型 转化 为 数值 型 ) 等 。 不 同 
数据 所 需要 的 预 处 理工 作 要 依据 建 模 目标 和 数据 自身 特征 进行 选择 性 操作 。 本 节 所 涉及 的 
数据 预 处 理工 作 主要 包括 奇异 值 〈 或 噪声 数据 ) 处理 和 无 意义 字段 处 理 。 由 于 本 节 的 样本 
数据 仅 有 18 个 属性 字段 ， 因 此 本 节 暂 不 考虑 基于 相关 性 分 析 对 字段 进行 筛选 与 降 维 。 


表 8-1 46 终端 营销 数据 示例 


字段 名 称 字段 类 型 





204 
2201.08 




















54557 

Null (为 空 ) 
WCDMA 

w 














终端 使 用 时 间 月) 
当月 省 内 漫游 时 长 
当月 省 际 漫游 时 长 
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1. 数据 预 处 理 相 关 操 作 

D 奇异 值 〈 或 噪声 数据 ) 的 删除 

(1) 将 样本 数据 导入 SPSS 软件 中 ， 依 次 单 击 “ 文 件 CF) 一 打开 〈O) 一 数据 
(A) ”。 在 “查找 范围 (L) ”下 拉 菜 单 中 找到 样本 数据 所 在 文件 夹 注意，SPSS 
软件 默认 文件 类 型 为 sav 格式 ) ， 在 “文件 类 型 T) ”下 拉 菜 单 中 找到 样本 数据 的 
存储 类 型 ， 如 图 8-1 所 示 ， 打 开 “ 样 本 数据 1.xlsx” 文 件 即 可 。 


[anme a a 
查找 范围 (L) (J 样 本 数据 =) aði 


QÀ 样本 数据 1xlsx 
























文件 名 (N): 














文件 类 型 (T): [Excel (*xls, *xlsx, *xlsm) Z 
SPSS/PC+ (*.sys) 

Systat (*.syd, *.sys) 

便携 (*.por) 

Excel (* ds, *xIsx, *xism) 

Lotus (*.w*) 

Sylk (*.sIk) 

dBase (* dbf) 

ISAS (*.sas7bdat, *.sd7, *.sd2, *.ssd01, * ssd04, *xpt) 


图 8-1 将 样本 数据 导入 SPSS 








E) 根据 观察 








1 








292396.00 
572168.00 








(2) 基于 图 形 观察 数据 字段 当月 MOU 和 当月 DOU 中 的 奇异 值 ， 依 次 单 击 “ 图 
Æ (G) 一 图 表 构建 程序 (C) ”, 根据 预览 提示 , 单 击 选中 “ 库 ” 选 项 卡 中 的 “ 双 轴 ”， 
后 双击 右 侧 “点 图 ”, 得 到 如 图 8-2 所 示 结 果 。 在 此 仅 需要 一 个 纵 轴 , 单 击 “ 基 本 元 素 ” 
选项 卡 ， 双 击 “ 选 择 轴 ”目录 下 第 二 项 单 纵 轴 选项 ， 将 “变量 ”中 “当月 MOU” 拖 
动 到 预览 框 中 的 义 轴 区 域 ,，“ 当 月 DOU” 拖 动 到 预览 框 中 的 Y 轴 区 域 ， 效果 如 图 8-3 
所 示 ， 最 后 单 击 “ 确 定 ” 即 可 。 

G) 在 输出 窗口 观察 图 形 分 布 结果 ， 发 现 “ 当 月 DOU” 存 在 明显 的 奇异 值 ， 双 
击 图 片 进入 图 表 编 辑 器 ， 单 击 选中 奇异 值 点 ， 右 键 选择 “ 转 至 个 案 ”， 如 图 8-4 所 示 ， 
即 可 在 数据 窗口 找到 该 条 记录 ， 选 中 记录 并 删除 。 


1310 大 数据 、 数 据 挖掘 与 智慧 运营 

















| © 
Coe) » (neo) Goad am 
































—_ 


图 8-3 绘制 “当月 MOU” 和 “当月 DOU” 分 布 图 形 2 
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图 8-4 利用 图 表 编 辑 器 定位 奇异 值 


其 他 奇异 值 的 删除 操作 同上 ， 不 再 袭 述 。 

2) 无 意义 字段 删除 

A) 基于 对 数据 的 统计 分 析 ， 对 数据 字段 进行 筛选 ， 依 次 单 击 菜单 栏 中 “分 析 
CA) 一 描述 统计 一 频率 (F) ”， 选 中 所 有 字段 放 入 右 侧 “变量 〈V) ” 栏 ， 其 他 参 
数 为 默认 值 ， 如 图 8-5 所 示 ， 单 击 确定 。 





图 8-5 对 所 有 字段 进行 频率 统计 
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(2) 所 有 字段 的 频率 统计 结果 呈现 在 输出 窗口 ， 发 现 “ 随 意 玩 编号 ”字段 仅 有 
两 种 有 效 值 600000061474 和 600000061478， 如 图 8-6 所 示 ， 且 该 字段 的 缺失 率 在 
83.9%， 缺 失 较 为 严重 ， 故 该 字段 对 于 后 续 分 类 建 模 没有 实际 意义 ， 为 降低 生成 模型 
的 计算 量 ， 可 直接 删除 该 字段 。 











随意 玩 编号 
频率 百分比 ”| 有 效 百分比 | 累积 百分比 
AR 600000061474 3122 15.6 97.0 97.0 
> 600000061478 96 0.5 3.0 100.0 
合计 3218 16.1 100.0 
缺失 系统 16781 83.9 
合计 19999 100.0 























图 8-6 “随意 玩 编号 ”统计 结果 

注意 : 以 上 操作 仅仅 是 数据 预 处 理 相 关 操 作 的 极 小 部 分 ， 在 实际 应 用 中 要 结合 建 模 需 求 和 数 
据 特 征 选择 匹配 的 预 处 理 步 骤 。 

2. 分 类 建 模 相关 操作 

在 完成 相关 预 处 理 操作 后 , 进入 建 模 分 析 阶 段 , 基于 第 4 章 分 类 算法 的 基础 知识 ， 
我 们 首先 要 准备 两 组 数据 : 一 是 训练 集 数据 ， 用 来 构建 分 类 预测 模型 ， 总 结 历史 营销 
规律 ， 二 是 测试 集 数据 ， 用 来 验证 预测 模型 的 性 能 及 其 泛 化 能 力 。 测 试 集 数据 一 般 选 
取 与 训练 集 相同 时 间或 之 后 一 段 时 间 内 采集 的 数据 ， 且 要 求 测试 集 数据 与 训练 集 数 据 
具有 相同 的 字段 信息 。 本 节 由 于 仅 有 一 组 数据 ， 我 们 通过 随机 采样 的 方式 ， 随 机 抽取 
80% 数据 作为 训练 集 ， 其 余 20% 数据 作为 测试 集 ， 用 来 实现 对 所 建 模型 的 验证 。 

将 数据 集合 通过 随机 采样 方式 在 SPSS 软件 中 进行 拆 分 的 操作 如 下 ， 依 次 单 击 菜 
单 栏 “数据 (D) 一 选择 个 案 ”, 如 图 8-7 所 示 , 选择 “随机 个 案 样本 (D) ”, 单 击 “ 样 
本 ”， 选 择 “ 大 约 (A) ”， 在 输入 框 输入 “80” 则 表示 从 所 有 个 案 中 随机 选择 总 
量 80% 的 个 案 ， 单 击 “ 继 续 ”。 和 输出 为 默认 选项 “过 滤 掉 未 选中 的 个 案 (F) ”， 单 
击 “确定 ”。 

在 数据 视图 窗口 ， 如 图 8-8 所 示 ， 我 们 可 以 看 到 最 后 一 列 后 面 椭圆 框 中 多 出 的 变 
量 字段 “filter $”， 其 中 数字 1 代表 随机 选中 的 80% 的 个 案 ， 数 字 0 代表 剩余 20% 
的 数据 。 最 后 ， 根 据 “fiter $” 将 该 数据 集合 拆 分 成 训练 集 和 测试 集 。 进 行 数据 集合 
拆 分 的 操作 如 下 : 依次 单 击 菜单 栏 “ 数 据 (D) 一 选择 个 案 ”, 如 图 8-9 所 示 , 选择 “如 
果 条 件 满足 D) ”， 单 击 “ 样 本 ”， 选 中 “大 约 个 案 的 80%6” 加 入 输入 框 ， 筛 选 条 
件 是 “filter $=1”， 单 击 “ 继 续 ”。 输出 项 选择 “将 选 定 个 案 复制 到 新 数据 集 (O) ”， 
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“数据 集 名 称 ” 自 拟 ， 此 处 命名 为 “训练 集 数 据 ”， 最 后 单 击 “确定 ”， 即 可 得 到 经 
随机 采样 后 的 训练 集 数据 文件 。 测 试 集 数据 文件 的 筛选 方法 基本 与 训练 集 相 同 ， 但 需 
要 将 筛选 条 件 改 为 “filter $=0”。 
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图 8-8 新 增 标记 变量 filter $ 
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图 8-9 按 条 件 拆 分 筛选 数据 


基于 训练 集 数 据 进行 分 类 建 模 ， 在 这 里 采用 CHAD 决策 树 算法 ， 由 于 SPSS 软 
件 中 决策 树 算法 内 幅 数 据 转换 功能 ， 即 将 字符 串 型 数据 转化 为 数值 型 ， 以 方便 后 续 的 
建 模 分 析 ， 因 此 ， 对 于 训练 集中 的 字符 串 型 数据 不 需要 进行 类 型 转换 操作 。 

模型 构建 操作 具体 步骤 如 下 所 述 。 

(1) 在 菜单 栏 依次 单 击 “ 分 析 CAD 一 分 类 CF) 一 树 (R) ”， 如 图 8-10 所 示 。 
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图 8-10 分 类 模型 之 决策 树 
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2) 在 打开 的 决策 树 对 话 框 中 ， 如 图 8-11 所 示 ， 将 目标 变量 “外 呼 营 销 4G 终端 
是 否 成 功 ”移入 “ 因 变 量 ” 中 ， 将 其 他 所 有 变量 移入 “ 自 变量 ”中 。 注 意 : 自 变量 要 
剔除 客户 编号 和 无 意义 变量 。“ 增 长 方法 CW) ”选择 默认 CHAD 算法 ， 关 于 其 他 
算法 读者 可 自行 学 习 。 在 “输出 (U) ”“ 验 证 (L) ”“ 条 件 (T) ”“ 保 存 (S) ” 
和 “选项 (O) ”相关 参数 设置 完成 后 ， 单 击 “ 确 定 ” 即 可 。 

在 “输出 (U) ”选项 中 ，“ 树 CT) ”选项 卡 下 ， 如 图 8-12 所 示 ， 为 了 使 结果 
呈现 具有 更 好 的 直观 效果 ， 将 “节点 内 容 ” 更 改 为 “ 表 和 图 表 (A) ”， 其 他 参数 均 
可 采用 默认 值 ，“ 统 计量 ”选项 卡 下 所 有 参数 均 采 用 默认 值 ，“ 规 则 ”选项 卡 下 ， 如 
图 8-13 所 示 ， 色 选 “ 生 成 分 类 规则 (G) ”“ 语 法 ”“ 节 点 ”和 “类 型 ”相关 参数 
设 为 默认 值 即 可 ， 勾 选 “ 将 规则 导出 到 文件 (X) ”， 通 过 “浏览 ”设置 文件 存储 路 
径 及 名 称 ， 文 件 默认 存储 类 型 为 .sps; 最 后 单 击 “ 继 续 ” 按 钮 。 





nesnaoiuures 
vanme 
a 


(oem) ae Lea vn, 
图 8-11 决策 树 算法 相关 参数 设置 图 8-12 决策 树 模型 输出 参数 设置 1 























“验证 (L) ”“ 条 件 CT) ”和 “选项 O) ”相关 参数 采用 默认 值 ， 在 “保存 
(S) ”选项 中 ， 分 别 勾 选 “保存 变量 ”下 的 “终端 节点 编号 CT)” “预测 值 CPD)” 
和 “预测 概率 R) ”按钮 。 

上 述 参数 配置 完成 后 ， 回 到 决策 树 主 界面 (如 图 8-10 tas) ， 点 击 “ 确 定 ”按钮 ， 
即 开始 决策 树 建 模 。 

3) 在 输出 窗口 得 到 分 类 模型 汇总 结果 (如 图 8-15 所 示 ) 和 分 类 树 形 图 (如 图 8-16 
所 示 ) 。 从 汇总 结果 可 以 看 出 ， 最 大 树 深 为 3， 终端 节点 数 为 22， 影 响 4G 终端 营销 
最 为 重要 的 属性 是 “终端 制式 ”等 内 容 。 对 于 分 类 树 形 图 ， 双 击 可 进入 “ 树 编 辑 器 ” 
界面 ， 观 察 节点 2 及 其 子 节点 ， 可 以 看 出 子 节点 的 划分 对 目标 变量 的 判决 是 没有 意义 
的 ， 此 时 可 以 通过 单 击 节点 右 下 角 的 减 号 ， 实 现 对 决策 树 的 后 剪 枝 操作 ， 其 他 节点 同 
理 ， 得 到 结果 如 图 8-17 所 示 。〈 此 处 请 读者 配合 软件 操作 来 理解 ) 
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8-16 ”决策 树 模型 树 形 图 


第 8 章 数据 挖掘 在 运营 商 智慧 运营 中 的 应 用 3171 





























8-17 树 编辑 器 中 前 村 后 树 形 图 


(4) 决策 树 模型 性 能 在 输出 窗口 中 也 有 体现 ， 从 图 8-18 中 的 混淆 矩阵 可 以 看 出 ， 
模型 命中 率 高 达 96% 的 同时 误 判 率 仅 为 0.4%[ 注意 : 在 SPSS 软件 中 决策 树 判 决 的 默 
UPA 50%, BDSM RAF 50% 时 ， 预 测 值 为 1 (1 代表 营销 成 功 ) ]。 为 了 
更 加 准确 、 直 观 地 描述 模型 的 预测 性 能 ， 我 们 需要 绘制 模型 的 ROC 曲线 。 


220 5235 





总 计 百分比 66.8% 33.2% 


增长 方法 :CHAID 
肉 变量 列表 : 外 呼 营销 46 终 端 星 否 成 功 


图 8-18 ”决策 树 模型 的 性 能 指标 


从 SPSS 软件 中 数据 视图 (如 图 8-19 所 示 ) 可 以 看 出 ， 模 型 构建 完成 后 数据 
中 新 增 了 四 个 变量 ， 分 别 为 “NodeID” 表 示 该 个 案 所 属 终端 节点 编号 ; “Predicted 
Value” 表 示 该 个 案外 呼 营销 4G 终端 是 否 成 功 的 预测 结果 ，1 代表 营销 成 功 ，0 代表 
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营销 不 成 功 ，“Predicted Probability 1” 表示 该 个 案 被 预测 为 0 (营销 不 成 功 ) 
的 概率 ; “Predicted Probability 2” 表 示 该 个 案 被 预测 为 1 (营销 成 功 ) 的 概 
率 ， 显 然 ， 两 个 概率 值 的 和 为 1。 其 中 “外 呼 营销 4G 终端 是 否 成 功 ” “Predicted 
Value” #il “Predicted Probability 2” 这 三 个 变量 可 用 于 绘制 ROC 曲线 ， 在 菜单 栏 
依次 单 击 “ 分 析 一 ROC 曲线 图 CV) ”， 得 到 如 图 8-20 所 示 界 面 ， 将 “Predicted 
Probability 2” 移入 “检验 变量 (T) ”, 将 “外 呼 营销 4G 终端 是 否 成 功 ” 移 入 “ 状 
态 变量 (S) ”， “状态 变量 的 值 CV) ”键入 1 (1 为 目标 值 ) ， 同 时 色 选 “ 带 
对 角 参 考 线 ”， 其 他 参数 均 为 默认 值 ， 最 后 单 击 “ 确 定 ” 按 钮 即 可 。 在 输出 
窗口 可 得 到 模型 的 ROC 曲线 图 (如 图 8-21 所 示 ) 以 及 曲线 下 面积 (AUC， 如 
图 8-22 所 示 ) ， 从 图 中 可 以 看 出 ， 判 决 阔 值 为 50% 时 ， 模 型 的 ROC 曲线 下 面积 高 
达 0.998， 具 有 极 好 的 分 类 性 能 。 
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图 8-19 决策 树 模型 的 结果 存储 
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图 8-20 ”绘制 ROC 曲线 参数 设置 
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8-21 ROC 曲线 


319 | 


| 320 


大 数据 、 数 据 挖掘 与 智慧 运营 


曲线 下 的 面积 


检验 结果 变量 : Predicted Probability for 外 呼 营销 
4G 终 端 是 否 成 功 =1 


检验 结果 变量 : Predicted Probability for 外 呼 
营销 4G 终 端 是 否 成 功 =1 在 正 的 和 负 的 实际 状 
ot I 统计 量 可 能 会 出 现 


8-22 ”曲线 下 面积 (AUC) 


(5) 在 “输出 ”选项 中 保存 的 规则 ， 即 我 们 最 终 要 用 到 的 历史 营销 规律 。 存 储 
在 我 们 设 定 的 文件 目录 下 ， 双 击 打开 规则 文件 ， 界 面 如 图 8-23 所 示 。 基 于 规则 文件 就 
可 以 实现 对 历史 营销 规律 的 总 结 ， 以 椭圆 圈 中 节点 为 例 ， 当 客户 所 用 手机 终端 制式 为 
WCDMA, HH DOU 使 用 量 在 (36296.0，73371.0] 之 间 ， 且 网 龄 小 于 183 时 ， 分 类 模 
型 将 该 客户 营销 4G 终端 是 否 成 功 预测 为 0， 且 预测 概率 为 0.811989。 即 满足 上 述 条 件 
的 客户 群体 ， 本 模型 将 其 预测 为 终端 营销 不 成 功 ， 预 测 正确 的 成 功率 约 为 81.2%。 
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终端 营销 并 不 应 该 仅 限 于 对 客户 群体 的 大 面积 撤 网 ， 更 加 应 该 注重 精确 终端 营 
销 ， 用 最 小 的 成 本 和 最 小 的 客户 打扰 ， 来 获取 最 大 的 收益 。 同 时 ， 终 端 营销 也 不 应 只 
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限于 终端 营销 潜在 客户 的 挖掘 ， 精 细 化 终端 营销 客户 群体 的 挖掘 日 益 得 到 重视 ， 利 用 
历史 的 终端 营销 数据 以 及 海量 经 分 数据 ， 把 用 户 群体 细 分 成 多 个 终端 使 用 群体 ， 构 造 
多 个 不 同 终端 的 营销 模型 ， 对 不 同 的 用 户 群 体 采 用 不 同 的 营销 方式 ， 营 销 不 同 价位 、 
不 同系 统 的 终端 。 挖 掘 海 量 客户 及 行为 数据 的 更 多 价值 ， 提 升 精细 化 管理 水 平 ， 数 据 
挖掘 也 是 不 可 或 缺 的 工具 。 实 际 应 用 中 读者 可 以 自己 针对 不 同 需求 和 数据 进行 多 个 模 
型 的 构建 ， 本 书 在 此 不 做 獒 述 。 


8.2.2 ”预测 潜在 客户 群体 


在 8.2.1 节 中 ， 基 于 训练 集 数据 ， 我 们 总 结 出 了 4G 终端 的 营销 规律 ， 即 输出 的 
规则 文件 。 但 对 于 营销 规律 的 泛 化 能 力 ， 即 能 否 直接 应 用 于 项 目 实践 ， 还 需要 利用 测 
试 集 数据 进行 验证 ， 若 基于 测试 集 数 据 模型 也 具有 较 好 的 ROC 曲线 表现 ， 则 说 明 营 
销 规律 具有 较 强 的 泛 化 能 力 ， 否 则 需要 对 模型 进行 调 优 。 同 时 模型 性 能 验证 过 程 对 于 
模型 相关 指数 的 优化 也 具有 一 定 的 指导 意义 。 

验证 营销 规律 的 泛 化 能 力 ， 需 将 以 上 得 到 的 规则 文件 应 用 到 测试 集 数据 中 。 用 
SPSS 软件 打开 测试 集 数据 ， 在 菜单 栏 依次 单 击 “ 文 件 (F) 一 新 建 (N) 一 语法 (S) ”， 
如 图 8-24 所 示 ， 在 语法 窗口 输入 应 用 规则 的 指令 “INSERT FILE=“ 规 则 路 径 /规则 
名 sps”， 其 中 ， 规 则 路 径 为 生成 模型 时 输出 规则 保存 的 实际 路 径 ， 规 则 名 为 自 定义 的 
名 称 ， 如 图 8-25 所 示 。 输 入 语法 指令 之 后 ， 检 查 所 输入 路 径 是 否 正确 。 最 后 ， 单 击 工 
具 栏 中 绿色 三 角形 即 可 运行 语法 指令 ， 或 者 依次 单 击 菜单 栏 的 “运行 R 一 全 部 ”。 
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8-25 ”规则 应 用 语法 视图 


注意 事项 如 下 : 

(1) 命令 不 区 分 大 小 写 ， 但 语法 指令 中 用 到 的 标点 符号 必须 是 英文 半角 符号 。 

(2) 测试 集 的 字段 必须 与 构造 模型 的 训练 集 字 段 保持 高 度 一 致 ， 包 括 字段 名 称 ， 
字段 属性 等 。 若 两 者 不 一 致 ， 在 应 用 规则 时 ， 在 语法 窗口 右 下 方 “ 线 ” “命令 ”和 “ 信 
息 ” 处 将 提示 错误 信息 。 

运行 语法 指令 之 后 ， 测 试 集 数 据 中 会 生成 三 列 新 的 字段 ， 即 新 的 属性 ， 如 图 8-26 
所 示 。 分 别 是 nod_001, pre_001 和 prb_001 三 个 字段 ， 其 中 nod 001 为 节点 编号 ， 
表示 当前 样本 〈 即 客户 ) 根据 决策 树 模型 被 预测 落 在 哪 一 个 叶子 节点 上 ; pre_001 为 
预测 值 ， 表 示 样 本 根据 决策 树 模型 被 预测 为 1 或 者 0 (1 表示 终端 营销 成 功 ，0 表示 
终端 营销 不 成 功 ) ; prb_001 为 预测 概率 ， 需 要 注意 的 是 ， 预 测 概率 并 不 是 指 预测 为 
1 或 者 预测 为 0 的 概率 ， 而 是 表示 样本 根据 决策 树 模型 被 预测 为 当前 预测 值 的 概率 。 
也 就 是 说 ， 若 样本 的 预测 值 为 0， 预测 概率 为 0.8， 则 表示 该 样本 被 预测 为 0 的 概率 
为 0.8; 车 样本 的 预测 值 为 1， 预测 概率 为 0.79， 则 表示 该 样本 被 预测 为 1 的 概率 为 
0.79。 由 此 不 难 知道 ， 预 测 概率 这 一 列 属性 的 值 都 是 0.5 到 1 之 间 的 小 数 。 

为 了 准确 评估 分 类 模型 应 用 到 在 测试 集 数 据 中 的 性 能 ， 需 要 绘制 测试 数据 集中 
的 ROC 曲线 。 在 SPSS 软件 中 ， 绘 制 ROC 曲线 需要 将 数据 的 目标 变量 作为 “状态 变 
量 ”， 目 标 变量 的 预测 概率 作为 “检验 变量 ”。 因 此 ， 在 测试 集 数据 集中 需要 把 预测 
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值 “pre 001” 的 预测 概率 “prb 001” 转 化 成 预测 为 目标 值 1 的 概率 〈 即 客户 的 购买 
概率 ) 。 具 体操 作 步 骤 如 下 : 在 菜单 栏 依次 单 击 “ 转 换 (T) 一 计算 变量 (C) ”， 

得 到 计算 变量 窗口 ， 如 图 8-27 所 示 ， 我 们 需要 在 变量 “prb 001” 原 始 数据 的 基础 上 
更 新 “pre_001=0” 那 部 分 数据 的 概率 值 , 则 需要 将 “prb_001” 作 为 “目标 变量 (T)”,“ 数 
FREN (E) ” 设 为 “1-prb 001”。 同 时 ， 还 需要 设置 “如 果 O) ”条 件 ， 如 图 8-28 
所 示 ， 选 中 “如 果 个 案 满 足 条 件 则 包括 (F) ”， 其 条 件 为 “pre_ 001=0”， 即 预测 值 
为 0 (营销 不 成 功 ) ， 然 后 单 击 “ 继 续 ”。 此 处 需要 注意 的 是 ，SPSS 软件 有 时 候 对 
于 小 数 点 比较 敏感 ， 即 当 “pre 001” 为 0.00〈 保 留 两 位 小 数 的 数值 ) 时 ， 系 统 可 能 
并 不 认为 pre 001=0， 因 此 此 时 保险 起 见 ， 可 将 条 件 转化 为 pre_001<0.4， 其 中 ，0.4 
为 〈0,1) 之 间 的 任意 值 ， 如 图 8-29 所 示 。 最 后 在 图 8-27 计算 变量 窗口 单 击 “ 确 定 ” 

按钮 。 此 时 ， 对 比 图 8-26 中 的 “prb 001”， 图 8-30 中 的 “prb 001” 表 示 预 测 值 为 
1 的 预测 概率 。 
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图 8-26 ”规则 应 用 结果 的 数据 视图 
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8-28 计算 变量 的 条 件 设置 





第 8 章 ”数据 挖掘 在 运营 商 智慧 运营 中 的 应 用 325 | 








` 
LJ 
` 
` 
7 
` 
x5 
129 


区 


es 28 





图 8-30 更 新 prb_001 字段 后 的 数据 视图 
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此 时 绘制 ROC 曲线 步骤 与 8.2.1 节 中 相同 ， 在 菜单 栏 依次 单 击 “ 分 析 CAD 一 
ROC 曲线 图 (vV) ”， 得 到 如 图 8-31 所 示 界 面 ， 其 中 ，“prb 001” 作 为 “检验 变量 
(T) ”，“ 外 呼 营销 4G 终端 是 否 成 功 ” 作 为 “状态 变量 (S) ”，“ 状 态 变量 的 值 
(V) ”设置 为 1， 色 选 “ 带 对 角 参 考 线 ”， 最 后 单 击 “ 确 定 ”按钮 即 可 。 
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8-31 ROC 曲线 相关 参数 设置 


在 输出 窗口 分 别 观察 测试 集合 的 ROC 曲线 (如 图 8-32 所 示 ) 和 曲线 下 面积 (AUC， 
如 图 8-33 所 示 ) 。 从 两 组 图 中 可 以 看 出 ，ROC 曲线 接近 理想 状态 ， 曲 线 下 面积 同样 
为 0.998， 说 明基 于 训练 集 数据 总 结 出 的 营销 规律 ， 应 用 到 测试 集 数据 中 同样 具有 较 
好 的 性 能 指标 ， 说 明 该 模型 具有 较 好 的 泛 化 能 力 ， 能 够 直接 应 用 到 实际 项 目 ， 对 客户 
进行 精准 化 营销 。 

补充 说 明 ， 本 节 所 涉及 的 训练 集 和 测试 集 两 组 数据 均 是 通用 数据 集 ， 在 分 类 模型 
的 性 能 评估 上 趋 于 理想 状态 ， 但 基于 实际 数据 进行 分 类 建 模 分 析 时 ， 由 于 各 种 因素 的 
影响 ， 其 结果 往往 并 不 是 特别 理想 ， 以 ROC 曲线 下 面积 为 例 ， 实 际 数据 集 分 类 建 模 
后 的 一 般 取 值 在 (0.6，0.8) 之 间 。 
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图 8-32 ”测试 集 数 据 的 ROC 曲线 





曲线 下 的 面积 
检验 结果 变量 : prb_001 


检验 结果 变量 : prb_001 在 正 的 和 负 的 
实际 状态 组 之 间 至 少 有 一 个 结 。 
统计 量 可 能 会 出 现 偏差。 


图 8-33 ”测试 集 数 据 的 曲线 下 面积 











8.2.3 客户 群体 细 分 


在 实际 营销 工作 中 ， 由 于 终端 营销 的 成 功率 远 比 50% 低 得 多 ， 而 SPSS 软件 默 
认 的 分 类 判决 阔 值 为 50%， 如 果 在 实际 应 用 中 直接 选择 50% 作为 判决 阔 值 ， 则 可 能 
因 闭 值 过 高 而 导致 待 营销 人 和 群 数量 过 少 的 情况 。 例 如 ，1 万 人 的 待 营销 人 群 ， 根 据 模 
型 的 预测 ， 可 能 其 中 预测 为 终端 营销 成 功 的 用 户 不 到 300 个 ， 远 远 达 不 到 实际 营销 的 
规模 。 因 此 ， 可 通过 调整 判决 阔 值 和 细 分 客户 群体 来 进一步 提升 营销 的 精准 性 。 

对 目标 客户 群体 进行 细 分 与 画像 就 是 把 客户 群体 根据 特征 细 分 为 多 个 小 的 群体 ， 





1328 


大 数据 、 数 据 挖掘 与 智慧 运营 





根据 决策 树 模型 不 难得 出 ， 每 个 客户 群体 内 部 的 成 功率 其 实 是 一 样 的 。 因 此 ， 将 客户 
细 分 为 多 个 不 同 营销 成 功率 的 群体 之 后 ， 即 可 根据 预算 依次 选择 成 功率 较 高 的 客户 群 
体 进行 营销 ， 直 到 达到 预算 的 规模 。 基 于 决策 树 模型 的 客户 细 分 实际 上 就 是 把 决策 树 
模型 的 叶子 节点 进行 划分 ， 不 同 的 叶子 节点 代表 不 同 特征 的 客户 群体 ， 具 有 不 同 的 预 
测 成 功率 。 根 据 经 验 ， 对 于 成 功率 高 的 叶子 节点 《〈 即 客户 群体 ) 优先 进行 营销 ， 之 后 
再 选择 次 优 的 叶子 节点 进行 营销 。 

本 节 经 过 客户 群体 细 分 后 ， 目 标 客户 画像 如 下 : 

da) 当 终 端 制式 为 WCDMA， 且 当月 DOU 大 于 73371.0 时 ， 预 测 客户 营销 成 
功率 为 100%; 

(2) 当 终 端 制式 为 TD-SCDMA， 且 当月 DOU 大 于 120949.0 时 ， 预 测 客户 营销 
成 功率 为 100%; 

(3) 当 终 端 制式 为 GSM， 且 当月 MOU 大 于 322.0 时 ， 预 测 客户 营销 成 功率 为 
100%; 

(4) 当 终 端 制式 为 TD-SCDMA， 且 当月 DOU 处 于 (73371.0，120949.0] 之 间 时 ， 
预测 客户 营销 成 功率 为 84.3%; 

G) 当 终 端 制式 为 GSM， 且 当月 MOU 处 于 (171.0，322.0] 之 间 ， 且 当月 
ARPU 大 于 38.85 时 ， 预 测 客户 营销 成 功率 为 20.1%; 

综 上 ， 寻 找 潜在 购 机 人 和 群 的 过 程 就 是 挖掘 历史 购 机 人 和 群 的 特征 的 过 程 ， 又 被 称 为 
“用 户 画 像 ”。 








8.2.4 制定 层次 化 、 个 性 化 精准 营销 方案 


细 分 之 后 的 客户 群体 , 由 于 具有 不 同 特征 , 适合 的 营销 方案 及 营销 方式 都 不 一 样 ， 
因此 为 不 同 客户 指定 层次 化 、 个 性 化 的 精准 营销 方案 就 显得 极其 重要 。 层 次 化 、 个 性 
化 要 求 基于 客户 的 特异 性 ， 对 客户 制定 最 适合 的 营销 方案 和 方式 。 例 如 ， 对 于 细 分 客 
户 中 的 年 龄 处 于 24 岁 至 33 岁 之 间 的 、 平 时 通信 费用 较 高 且 流 量 使 用 量 也 很 多 的 客户 
群体 并 且 常 驻 小 区 为 高 端 小 区 的 客户 , 对 其 营销 的 终端 则 是 较 高 端的 终端 机 型 。 同 时 ， 
对 于 这 个 客户 群体 ， 适 合 使 用 外 呼 营销 还 是 短信 营销 或 微 信 营业 厅 、 手 机 App 营业 
厅 还 是 线 下 直接 营销 ， 则 要 根据 用 户 的 其 他 字段 进行 分 析 。 此 外 ， 对 于 不 同 客户 ， 进 
行 终端 营销 的 话 术 和 营销 时 间 也 要 有 所 调整 。 比 如 ， 对 于 白领 ， 对 其 进行 营销 的 时 间 
在 下 班 之 后 的 某 个 时 段 会 更 加 合适 。 对 于 上 夜班 的 客户 ， 对 其 营销 避 开 其 休息 时 间 会 
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降低 营销 失败 的 概率 。 总 之 ， 制 定 层 次 化 、 个 性 化 精准 营销 方案 要 求 结合 实际 业务 对 
客户 制定 最 适合 的 营销 方案 和 营销 方式 。 

需要 注意 的 是 ， 本 书 只 是 给 出 了 一 个 示例 ， 在 生活 中 我 们 过 到 的 各 种 数据 集 并 不 
是 都 会 显示 出 如 此 好 的 结果 。 这 个 时 候 就 需要 进行 调 优 。 一 个 行 之 有 效 的 办 法 就 是 使 
用 第 7 章 讲述 的 增强 算法 。 如 Bagging， 就 需要 对 训练 数据 集 又 放 回 采样 ， 得 到 多 个 
训练 数据 集 ， 从 而 可 以 得 到 多 个 分 类 器 规则) ， 将 这 些 分 类 器 依次 应 用 到 测试 数据 
集 上 ， 并 对 预测 结果 进行 投票 ， 测 试 样本 被 指派 到 得 票 最 高 的 类 型 。 可 以 看 出 ， 昌 然 
增强 算法 的 效果 优 于 一 般 的 决策 树 ， 但 计算 量 会 大 大 增加 ， 所 以 我 们 在 应 用 时 需要 根 
据 实 际 情况 选择 最 为 合适 的 算法 ， 像 本 书 中 的 示例 ， 单 棵 决策 树 的 效果 已 经 很 好 ， 就 
不 需要 使 用 增强 算法 。 而 当 我 们 发 现 单 棵 树 的 效果 不 够 好 时 ， 可 以 选择 增强 算法 。 


随 着 电信 市 场 竞 争 越发 激烈 及 移动 互联 网 时 代 的 来 临 ， 一 方面 ， 客 户 对 业务 的 需 
求 日 趋 多 样 化 和 差异 化 ， 对 运营 商 服务 的 质量 也 提出 了 更 高 的 要 求 ， 另 一 方面 ， 运 营 
商 自 身 各 系统 中 的 大 量 数据 通过 精细 化 模型 挖掘 必 将 在 分 析 用 户 行为 、 精 确 识 别 客户 
业务 需求 、 开 展 精细 化 服务 营销 方面 发 挥 巨大 作用 。 数 据 挖掘 技术 为 运营 商 开 展 电 子 
渠道 精准 服务 营销 提供 了 决策 分 析 工 具 。 

面 对 广 大 的 客户 群体 ， 上 节 已 经 讨论 过 终端 业务 的 营销 ， 单 业务 的 营销 模式 是 现 
在 比较 普遍 的 营销 模式 ， 但 在 实际 工作 中 ， 经 常 遇见 需要 从 多 个 业务 中 向 用 户 推荐 一 
个 业务 的 情况 ， 在 这 种 情况 下 ， 基 于 用 户 的 多 种 业务 联合 精准 营销 就 变 得 很 有 必要 。 
本 章 基 于 阅读 、 视 频 、 和 彩云 、 音 乐 、 邮 箱 五 种 业务 的 多 个 业务 推送 进行 模型 挖掘 。 


8.3.1 根据 历史 营销 规律 总 结 单个 业务 的 历史 营销 规律 


对 于 已 有 的 历史 数据 进行 营销 规律 的 总 结 ， 我 们 在 8.2 节 终 端 营 销 中 已 经 讨论 过 
具体 方法 ， 而 对 于 多 种 业务 中 选择 几 种 业务 对 用 户 进行 推送 也 是 一 样 的 原理 ， 整 个 模 
型 的 主要 思想 是 构建 多 个 业务 的 模型 ， 得 到 多 个 业务 的 分 类 概率 ， 对 用 户 的 多 个 业务 
概率 进行 一 个 排序 ， 最 后 推送 营销 成 功率 最 高 的 业务 。 因 此 ， 模 型 还 是 基于 多 个 单 业 
务 模型 的 数据 挖掘 。 
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在 构造 多 个 单 业务 模型 之 前 ， 最 重要 的 就 是 数据 预 处 理 ， 一 个 好 的 数据 预 处 理 才 
能 保证 后 续 建 模 的 有 效 性 ， 数 据 预 处 理 包括 去 奇异 值 ， 即 去 掉 数 据 字段 中 的 噪声 点 、 
缺失 值 填充 、 填 补 数据 缺失 值 ， 以 及 在 数据 量 比较 大 的 时 候 要 适当 进行 数据 归 约 。 

数据 预 处 理 之 后 就 可 以 对 单 业务 模型 进行 构建 ， 单 业务 模型 的 构建 和 8.2 节 一 
致 ， 本 节 采 用 较 简 单 的 决策 树 模型 ， 对 各 个 业务 分 别 进行 单 业务 模型 构建 。 对 于 手 
机 阅读 包月 用 户 数据 总 量 约 为 62 万 条 ， 其 中 活跃 用 户 比 例 约 为 12.8%。 图 8-34 为 
用 SPSS 描绘 的 目标 字段 分 布 的 直方 图 。 直接 用 CHAD 决策 树 对 原始 数据 构建 模型 ， 
性 能 指标 如 图 8-35 所 示 。 



























































600000- 
500000- 
400000- 
Æ 3000004 
539961 
200000- 
100000- 
79123 
0 r r 
0.0 1.0 
是 否 活跃 
图 8-34 目标 字段 分 布 直方 图 
分 类 
预测 
ie 0.0 1.0 正确 百分比 
0.0 539961 0 100.0% 
1.0 79123 0 0.0% 
总 体 百分比 100.0% 0.0% 87.2% 
生长 法 : CHAID 
因 变 量 : 是 否 活跃 


图 8-35 ”阅读 数据 CHAD 决策 树 结果 


可 以 分 类 结果 看 到 建 模 效果 并 不 理想 ， 模 型 把 所 有 用 户 预 测 为 不 订阅 ， 这 就 涉及 
数据 不 平衡 问题 , 就 是 在 数据 不 平衡 情况 下 , 会 出 现 规律 无 法 进行 挖掘 的 情况 。 因此， 
现 对 原始 数据 进行 欠 采 样 和 过 采样 比例 调整 ， 来 提高 模型 效果 。 在 62 万 总 数据 中 篇 
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选 出 30 万 training 训练 集 进行 模型 构建 ， 同 时 随机 筛选 出 30 万 testing 测试 集 验证 模 
型 效果 。 为 避免 出 现 规律 挖掘 不 出 来 的 情况 ， 训 练 集 的 筛选 是 通过 单独 提取 所 有 活跃 
用 户 和 部 分 非 活 跃 用 户 数据 后 调整 比例 进行 合并 ， 使 活跃 用 户 比例 达到 45.5%. 

对 调整 比例 后 的 training 训练 集 依次 用 CHAID、 穷 举 CHAID、CRT、QUEST 
四 种 不 同 的 决策 树 算 法 构建 决策 树 ， 在 输出 窗口 得 到 的 各 决策 树 性 能 指标 分 别 如 
图 8-36 一 图 8-39 所 示 。 





























分 类 
预测 
0.0 1.0 正确 百分比 
0.0 107344 53991 66.5% 
1.0 59124 75503 56.1% 
总 体 百 分 比 56.2% 43.8% 61.8% 
生长 法 : CHAID 
因 变 量 : 是 否 活跃 


图 8-36 ”阅读 数据 调整 比例 之 后 CHAD 决策 树 结果 





























分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 106470 54865 66.0% 
1.0 57726 76901 57.1% 
总 体 百分比 55.5% 44.5% 62.0% 
生长 法 : 穷 举 CHAID 
因 变 量 : 是否 活跃 


8-37 阅读 数据 调整 比例 之 后 穷 举 CHAID 决策 树 结果 





























分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 111230 50105 68.9% 
1.0 67903 66724 49.6% 
总 体 百分比 60.5% 39.5% 60.1% 
生长 法 : CRT 
因 变 量 : 是 否 活跃 


图 8-38 ”阅读 数据 调整 比例 之 后 CRT 决策 树 结果 
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分 类 
预测 
a 0.0 1.0 正确 百分比 
0.0 119236 42099 73.9% 
1.0 81850 52777 39.2% 
总 体 百分比 67.9% 32.1% 58.1% 
生长 法 : QUEST 
因 变 量 : 是 否 活跃 


8-39 阅读 数据 调整 比例 之 后 QUEST 决策 树 结果 
分 别 绘制 四 个 决策 树 算法 的 ROC 曲线 ， 结 果 如 图 8-40 所 示 。 
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8-40 阅读 数据 调整 比例 之 后 四 种 决策 树 ROC 曲线 


对 比 命中 率 和 误 判 率 ， 并 根据 各 模型 的 ROC 曲线 面积 即 AUC 的 大 小 ， 发 现 对 
阅读 数据 选用 穷 举 CHAID 算法 建 模 效果 最 好 。 

同 理 ， 对 于 音乐 业务 ， 音 乐 包 月 用 户 数据 总 量 约 62 万 条 ， 活 跃 用 户 比 例 1.2%， 
活跃 比例 较 低 。 直 接 用 CHAID 决策 树 对 原始 数据 构建 模型 ， 其 性 能 指标 如 图 8-41 所 
示 。 可 以 看 出 由 于 活跃 用 户 比例 较 低 ， 预 测 效果 很 不 理想 。 因 此 ， 对 原始 数据 进行 比 
例 调 整 以 提高 模型 效果 ， 通 过 对 62 万 条 数据 构建 30 万 条 数据 的 training 训练 集 和 30 
万 条 数据 的 testing 测试 集 ， 随 机 抽取 50% 的 30 万 条 数据 的 testing 测试 集 ， 提 取 全 
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部 活跃 用 户 和 部 分 非 活跃 用 户 按 比例 1:1.5 构成 30 万 条 数据 的 training 训练 集 ， 使 活 
跃 用 户 比 例 达到 42%. 





























分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 613972 0 100.0% 
1.0 7909 0 0.0% 
总 体 百分比 100.0% 0.0% 98.7% 
生长 法 : CHAID 
因 变量 : 是 否 活跃 


8-41 音乐 数据 CHAID 决策 树 结果 


对 调整 比例 后 的 training 训练 集 依次 用 CHAID、 穷 举 CHAID、CRT、QUEST 算 





























法 构建 决策 树 ， 得 到 的 性 能 指标 分 别 如 图 8-42 一 图 8-45 所 示 。 
分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 131694 39512 76.9% 
1.0 43136 83408 65.9% 
总 体 百 分 比 58.7% 41.3% 72.2% 
生长 法 : CHAID 
因 变 量 : 是 否 活跃 


8-42 音乐 数据 调整 比例 之 后 CHAD 决策 树 结果 











分 类 
预测 
实测 
0.0 1.0 正确 百分比 
0.0 129030 42196 75.4% 
1.0 39120 87424 65.1% 
总 体 百 分 比 56.5% 43.5% 72.7% 




















生长 法 : 穷 举 CHAID 
因 变 量 : 是 否 活跃 


8-43 ”音乐 数据 调整 比例 之 后 穷 举 CHAID 决策 树 结果 
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分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 128157 43049 75.9% 
1.0 51296 75248 59.5% 
总 体 百分比 60.3% 39.7% 68.3% 
生长 法 : QUEST 
因 变 量 : 是 否 活跃 


8-44 音乐 数据 调整 比例 之 后 QUEST 决策 树 结果 





























分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 133127 38079 77.8% 
1.0 53264 73280 57.9% 
总 体 百 分 比 62.6% 37.4% 69.3% 
生长 法 : CRT 
因 变量 : 是 否 活跃 


图 8-45 ”音乐 数据 调整 比例 之 后 CRT 决策 树 结果 


绘制 四 种 算法 的 ROC 曲线 ， 对 比 命中 率 和 误 判 率 ， 或 者 对 比 各 模型 ROC 曲线 
面积 的 大 小 ， 如 图 8-46 所 示 ， 发 现 对 音乐 数据 选用 穷 举 CHAID 算法 建 模 效果 最 好 。 
ROCHER 
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图 8-46 音乐 数据 调整 比例 之 后 各 决策 树 ROC 曲线 
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对 于 视频 业务 数据 ， 视 频 包 月 用 户 数据 总 量 约 18 万 条 ， 活 跃 用 户 比例 2.48%, 
活跃 用 户 占 比 较 低 。 直 接 用 CHAID 决策 树 对 原始 数据 构建 模型 ， 性 能 指标 如 图 8-47 
所 示 。 
































分 类 
预测 
样本 实测 | 
训练 0.0 87833 119 99.9% 
1.0 2144 127 5.6% 
总 体 百分比 | 99.7%] 0.3% 97.5% 
检验 0.0 87446 141 99.8% 
1.0 2080 113 5.2% 
总 体 百分比 | 99.7% | 0.3% 97.5% 
生长 法 : CHAID 
因 变 量 : 是 否 活跃 


图 8-47 视频 数据 CHAID 决策 树 效果 


由 于 活跃 用 户 比 例 较 低 ， 预 测 效果 很 不 理想 ， 因 此 对 原始 数据 进行 比例 调整 以 提 
高 模型 效果 ， 调 整数 据 ， 抽 取 全 部 活跃 用 户 和 部 分 非 活跃 用 户 按 1:2 构成 9 万 条 数据 
的 training 训练 集 ， 随 机 抽取 50% 构成 9 万 条 数据 的 testing 测试 集 ， 活 跃 用 户 比 例 
达到 37%。 

对 调整 比例 后 的 training 依次 用 CHAID、 穷 举 CHAID、CRT、QUEST 算法 构建 
决策 树 ， 得 到 的 性 能 指标 分 别 如 图 8-48 一 图 8-51 所 示 。 





























分 类 
预测 

实测 00 10 | 正确 百分比 
0.0 53321 6383 89.3% 
1.0 22272 13440 37.6% 
总 体 百分比 79.2% 20.8% 70.0% 
生长 法 : CHAID 
因 变 量 : 是 否 活跃 


8-48 ”视频 数据 调整 比例 之 后 CHAD 决策 树 结果 
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分 类 
预测 
ae 0.0 1.0 正确 百分比 
0.0 53046 6658 88.8% 
1.0 21752 13960 39.1% 
EMEA 78.4% 21.6% 70.2% 
生长 法 : FASCHAID 





因 变 量 : 是 否 活跃 
图 8-49 ”视频 数据 调整 比例 之 后 穷 举 CHAD 决策 树 结果 





























分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 58059 1645 97.2% 
1.0 26632 9080 25.4% 
总 体 百 分 比 88.8% 11.2% 70.4% 
生长 法 : CRT 
因 变 量 : 是 否 活跃 


8-50 ”视频 数据 调整 比例 之 后 穷 举 CRT 决策 树 结果 





























分 类 
预测 
0.0 1.0 正确 百分比 
0.0 57377 2327 96.1% 
1.0 28816 6896 19.3% 
总 体 百 分 比 90.3% 9.7% 67.4% 
生长 法 : QUEST 
因 变 量 : 是 否 活跃 


图 8-51 视频 数据 调整 比例 之 后 穷 举 QUEST 决策 树 结果 


绘制 四 种 算法 的 ROC 曲线 ， 如 图 8-52 所 示 ， 对 比 命中 率 和 误 判 率 ， 或 者 对 比 各 
模型 的 ROC 曲线 面积 的 大 小 ,发现 对 视频 数据 选用 穷 举 CHAID 算法 建 模 效果 最 好 。 
邮箱 包月 用 户 数据 约 18 万 条 ， 活 跃 用 户 比 例 为 和 .2%， 活 跃 用 户 比 例 较 高 。 原 


始 数据 对 半分 为 训练 集 和 测试 集 , 用 CHAID 算法 构建 决策 树 模型 , 性 能 指标 如 图 8-53 
所 示 。 
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1- 特 异性 
8-52 ”视频 数据 调整 比例 之 后 各 决策 树 ROC 曲线 


08 Lo 
































分 类 
预测 
样本 实测 
0.0 1.0 | 正确 百分比 
训练 0.0 41808 | 11035 79.1% 
1.0 10257 | 27047 72.5% 
总 体 百分比 | 57.8% | 42.2% 76.4% 
检验 0.0 41016| 11210 78.5% 
1.0 10075 | 26858 72.7% 
总 体 百分比 | 57.3% | 42.7% 43.3% 
生长 法 : CHAID 


因 变 量 : 是 否 活跃 


8-53 ”邮箱 数据 CHAID 决策 树 效果 


模型 命中 率 为 72.5%， 误 判 率 为 20.9%， 较 为 理想 。 接 着 用 穷 举 CHAID、CRT、 
QUEST 算法 构建 决策 树 ， 得 到 的 性 能 指标 分 别 如 图 8-54 一 图 8-56 所 示 。 
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分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 84478 20591 80.4% 
1.0 21350 52887 71.2% 
总 体 百分比 59.0% 41.0% 76.6% 
生长 法 : 穷 举 CHAID 
因 变 量 : 是 否 活跃 


8-54 邮箱 数据 穷 举 CHAD 决策 树 效果 





























分 类 
预测 

ie 0.0 1.0 正确 百分比 
0.0 76525 28544 72.8% 
1.0 11921 62316 83.9% 
总 体 百分比 49.3% 50.7% 77.4% 
生长 法 ，CRT 
因 变 量 : 是 否 活跃 


图 8-55 邮箱 数据 CRT 决策 树 效果 





























分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 87044 18025 82.8% 
1.0 28730 45507 61.3% 
总 体 百分比 64.6% 35.4% 73.9% 
生长 法 : QUEST 
因 变 量 : 是 否 活跃 


图 8-56 ”邮箱 数据 QUEST 决策 树 效果 


绘制 四 种 算法 的 ROC 曲线 ， 如 图 8-57 所 示 ， 对 比 命中 率 和 误 判 率 ， 或 者 对 比 各 
模型 的 ROC 曲线 面积 的 大 小 ， 发 现 对 邮箱 数据 选用 CRT 算法 建 模 效果 最 好 。 

和 彩云 包月 用 户 数据 约 30 万 条 ， 活 跃 用 户 比 例 41%， 活 跃 用 户 占 比较 高 。 直 接 
对 原始 数据 用 CHAID 算法 构建 决策 树 模型 ， 性 能 指标 如 图 8-58 所 示 。 

模型 命中 率 为 51.7%， 误 判 率 为 17.6%， 较 为 理想 。 接 着 用 穷 举 CHAID、CRT、 
QUEST 算法 构建 决策 树 ， 得 到 的 性 能 指标 分 别 如 图 8-59 一 图 8-61 所 示 。 
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1- 特 异性 


图 8-57 ”邮箱 数据 各 决策 树 ROC 曲线 






































分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 147369 31551 82.4% 
1.0 60347 64615 51.7% 
总 体 百分比 68.4% 31.6% 69.8% 
生长 法 : CHAID 
因 变 量 : 是 否 活跃 
图 8-58 ”和 彩云 数据 CHAID 决策 树 效果 
分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 148474 30446 83.0% 
1.0 60992 63970 51.2% 
总 体 百分比 68.9% 31.1% 69.9% 




















生长 法 : 穷 举 CHAID 
因 变 量 : 是 否 活跃 
图 8-59 和 彩云 数据 穷 举 CHAID 决策 树 效果 
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分 类 
预测 
实测 0.0 1.0 正确 百分比 
0.0 134617 44303 75.2% 
1.0 51801 73161 58.5% 
总 体 百分比 61.3% 38.7% 68.4% 
生长 法 : CRT 
因 变 量 : 是 否 活跃 


图 8-60 和 彩云 数据 CRT 决策 树 效果 





























分 类 
预测 
iil 0.0 1.0 正确 百分比 
0.0 167218 11702 93.5% 
1.0 92797 32165 25.7% 
总 体 百 分 比 85.6% 14.4% 65.6% 
生长 法 : QUEST 
因 变 量 : 是 否 活跃 


图 8-61 和 彩云 数据 QUEST 决策 树 效果 
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1- 特 异性 
图 8-62 ”和 彩云 数据 各 决策 树 ROC 曲线 
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绘制 四 种 算法 的 ROC 曲线 ， 如 图 8-62 所 示 ， 对 比 命中 率 和 误 判 率 ， 或 者 对 比 
各 模型 的 ROC 曲线 面积 的 大 小 ， 发 现 对 阅读 数据 选用 穷 举 CHAID 算法 建 模 效果 
最 好 。 

至 此 ， 五 个 单 业务 的 模型 已 经 构建 完毕 。 每 个 单 业务 模型 的 构建 和 单 业务 终端 营 
销 的 模型 构建 并 没有 什么 不 同 ， 值 得 注意 的 是 ， 在 这 一 小 节 引入 了 算法 选 型 ， 利 用 多 
个 决策 树 模型 进行 模型 构造 并 对 各 个 决策 树 的 结果 进行 比较 ， 择 优 作为 最 终 的 模型 。 
此 外 ， 本 小 节 由 于 用 到 的 数据 也 是 不 平衡 数据 ， 因 此 多 个 模型 都 对 数据 进行 了 从 采样 
和 过 采样 ， 对 数据 进行 了 比例 调 优 。 


83.2 ”预测 潜在 客户 群体 、 预 测 单个 业务 的 潜在 客户 群体 及 多 个 业 
务 的 联合 建 模 


在 8.3.1 节 中 构造 了 五 个 不 同 的 决策 树 模型 ， 并 得 到 了 历史 营销 的 基本 规律 ， 利 
用 得 到 的 历史 营销 规律 即 模型 规则 预测 潜在 的 客户 群体 ， 就 成 为 重 中 之 重 。 根 据 前 一 
小 节 得 到 的 五 个 规则 ， 可 以 得 到 五 个 不 同业 务 的 潜在 客户 群体 。 具 体操 作 和 8.2 节 中 
提 到 的 预测 潜在 客户 群体 的 操作 类 似 ， 在 测试 数据 集中 选择 新 建 语法 ， 输 入 相应 的 
语法 指令 “INSERT FILE= 规则 路 径 \ 规 则 名 .sps”， 然 后 单 击 工具 栏 的 绿色 三 角形 
按钮 即 可 在 测试 数据 集中 得 到 新 的 三 列 分 别 是 节点 编号 、 预 测 值 和 预测 为 当前 值 的 概 
率 。 根 据 预测 值 就 可 以 得 到 预测 为 目标 用 户 的 潜在 客户 群体 。 同 样 的 ， 系 统 是 根据 0.5 
的 阔 值 进行 判决 ， 即 预测 概率 大 于 0.5 则 预测 为 1， 否 则 预测 为 0。 在 实际 工作 中 ， 
若 0.5 的 门限 值 不 能 和 实际 预算 相 匹配 ， 则 需要 通过 预测 概率 的 门限 值 进 行 手动 调节 ， 
即 把 预测 概率 转化 为 预测 为 1 的 概率 之 后 ， 对 于 预测 为 1 的 概率 大 于 门限 值 的 ， 作 为 
最 终 的 目标 人 群 ， 否则， 作为 非 目 标 人 群 。 通 过 手动 设置 这 个 门限 值 ， 可 以 调节 目标 
人 和 群 的 规模 ， 进 而 用 来 匹配 实际 工作 中 的 预算 。 

以 上 都 是 对 单个 业务 的 客户 群 预测 。 那 么 ， 对 于 多 业务 的 联合 模型 ， 应 该 怎么 建 
模 呢 ? 

完成 单项 业务 算法 选 型 之 后 ， 采 集 未 办 理 业 务 的 客户 清单 作为 待 营销 客户 群体 ， 
并 将 五 种 业务 的 预测 模型 应 用 到 待 营销 客户 数据 之 后 ， 得 到 每 个 客户 各 项 业务 的 预测 
概率 ， 筛 选 预 测 成 功 概率 即 营销 成 功率 最 大 的 一 个 业务 作为 该 客户 的 最 终 推荐 业务 即 
完成 多 业务 模型 的 构建 。 

怎么 从 多 个 概率 里 找 出 最 高 的 一 个 作为 最 终 输 出 的 业务 对 用 户 进行 推荐 呢 ? 手 
动 选择 自然 会 降低 效率 并 且 增加 人 工 工作 量 ， 因 此 ， 可 以 利用 SPSS 软件 进行 筛选 ， 
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首先 合并 各 个 预测 之 后 的 待 营销 数据 集 ， 然 后 进行 条 件 选择 个 案 。 各 个 业务 的 条 件 语 
句 如 下 : 

(1) 阅读 待 营销 用 户 筛选 : 

(阅读 预测 概率 > 音乐 预测 概率 ) & (阅读 预测 概率 大 视频 预测 概率 ) & ( 阅 
读 预测 概率 > 邮箱 预测 概率 ) & 〈 阅 读 预 测 概率 这 和 彩云 预测 概率 ) 

D 音乐 待 营销 用 户 筛选 : 

(音乐 预测 概率 三 阅读 预测 概率 ) & (音乐 预测 概率 大 视频 预测 概率 ) & GF 
乐 预测 概率 > 邮箱 预测 概率 ) & (音乐 预测 概率 宇 和 彩云 预测 概率 ) 

G) 视频 待 营销 用 户 筛选 : 

(视频 预测 概率 三 阅读 预测 概率 ) & (视频 预测 概率 三 音乐 预测 概率 ) & 〈 视 
频 预 测 概率 > 邮箱 预测 概率 〉&& (视频 预测 概率 三 和 彩云 预测 概率 ) 

(4) 邮箱 待 营销 用 户 筛选 : 

邮箱 预测 概率 阅读 预测 概率 ) & (邮箱 预测 概率 三 音乐 预测 概率 ) & CHB 
箱 预 测 概率 三 视频 预测 概率 ) & (邮箱 预测 概率 三 和 彩云 预测 概率 ) 

(5) 和 彩云 待 营销 用 户 筛选 : 

(和 彩云 预测 概率 三 阅读 预测 概率 )& (和 彩云 预测 概率 三 音乐 预测 概率 )& (和 
彩云 预测 概率 > 视频 预测 概率 ) & (和 彩云 预测 概率 三 邮箱 预测 概率 ) 

实际 上 ， 将 五 个 模型 数据 集合 并 之 后 〈 五 个 模型 待 营销 数 据 一致 ) ， 则 每 个 用 户 
都 有 五 条 记录 ， 分 别 记录 五 个 业务 的 预测 情况 ， 包 括 特 征 属 性 、 目 标 属 性 以 及 预测 为 
当前 业务 的 预测 节点 、 预 测 值 和 预测 概率 。 以 上 条 件 语句 实际 上 针对 每 一 个 业务 ， 找 
出 五 个 业务 中 该 业务 预测 概率 最 大 的 用 户 作为 目标 用 户 。 


8.3.3 制定 多 业务 层次 化 个 性 化 联合 精准 营销 方案 


在 8.3.2 小 节 中 , 分 别 筛选 出 与 购买 其 他 业务 相 比 ,最 想 购 买 视 频 业 务 、 阅 读 业 务 、 
音乐 业务 、139 邮箱 业务 、 和 彩云 业务 的 用 户 。 对 于 这 五 个 业务 案例 ， 我 们 可 以 为 每 
个 用 户 选 择 三 个 他 最 想 购买 的 产品 。 


HA: 对 每 个 用 户 推荐 产品 成 功率 的 集合 4;{a;，b;，c;，d;， 外 ， 共 n 个 用 户 
输出 : 应 该 对 每 个 用 户 推荐 的 产品 Bu, v;, m] 


For G=1, H+, i<n) 
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{ 

¥ Ala, ba Co de, e) 按 大 小 顺序 排序 

排序 后 的 前 三 个 成 功率 对 应 的 产品 分 别 赋值 给 Blu, v,, m] 
} 

输出 Biu,;, vi, m] 


8.3.4 落地 效果 评估 


采用 和 娱乐 周刊 彩信 群发 的 方式 落地 。 营 销 的 总 体 成 功率 由 传统 方式 的 3.5% 提 
升 到 了 4.4%， 成 功率 整体 提升 了 0.9pp。 营 销 提升 效果 如 图 8-63 MR. ME 8-63 中 
可 以 看 出 , 阅读 业务 提升 了 1.3pp、 音 乐 业务 提升 了 1.8pp、139 邮箱 业务 提升 了 0.8pp、 


和 彩云 业务 提升 了 1.4pp。 


1.8% 
1.3% 
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视频 阅读 音乐 139 邮 箱 和 彩云 





























8-63 ”多 业务 精准 营销 方案 效果 提升 


采用 多 业务 精准 营销 与 传统 的 多 业务 营销 方式 相 比 ， 不 仅 节省 了 营销 资源 ， 降 低 
了 营销 成 本 ， 而 且 还 避免 对 用 户 的 多 次 打扰 ， 有 助 于 提高 用 户 满意 度 。 

在 某 项 项 目 落地 中 ， 通 过 空中 渠道 一 一 娱乐 周刊 端口 针对 66 万 客户 开展 小 范围 
营销 推荐 , 成 功 向 2.88 万 客户 实现 营销 推荐 。 营 销 结果 如 表 8-2 所 示 。 通 过 业务 营销 ， 
带 来 了 每 月 8.64 万 元 的 收益 。 用 户 在 使 用 这 些 业 务 时 《〈 如 观看 视频 、 听 音乐 等 ) ， 
每 月 消耗 流量 共计 230.4 万 兆 。 成 功 营销 业务 带 来 的 直接 收益 和 附加 的 相关 流量 收益 


每 月 共计 24.74 万 元 。 
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表 8-2 多 业务 精准 营销 一 期 模型 效益 
营销 总 量 | 营销 成 | 成 功率 | 业务 增收 | ”流量 增收 总 收入 ( 业务 收入 + 
(单位 : 万 兆 ) | 流量 收入 ， 单 位 : 万 元 ) 


























为 了 建立 效果 更 好 的 模型 ， 可 以 对 模型 进行 相应 的 调整 优化 。 首 先 ， 可 以 对 数 
据 进 行 优化 ， 现 阶段 仅 能 提取 经 分 数据 及 基地 数据 ， 本 次 项 目 采样 数据 缺乏 客户 互联 
网 使 用 行为 、 内 容 浏览 等 数据 。 未 来 建 模 时 ， 我 们 可 以 利用 逐步 完善 的 互联 网 应 用 基 
础 数据 支撑 ， 实 现 客户 实时 场景 变化 、 内 容 偏好 、 上 网 时 段 等 数据 快速 挖掘。 其 次 ， 
对 于 模型 ， 现 阶段 的 模型 落地 效果 数据 提取 周期 过 长 〈 基 地 提 数 周期 : 每 月 ) ， 现 阶 
段 仅 完成 一 期 模型 ， 分 析 模 型 有 待 多 次 验证 、 调 整 ， 反 复 优化 。 接 下 来 ， 我 们 可 以 完 
善 数据 支撑 系统 及 本 地 化 大 数据 分 析 系 统 支撑 ， 丰 富 模型 算法 〈 如 Bagging) ， 实 施 
NH 期 闭环 调 优 策略 ， 不 断 提高 模型 效益 。 最 后 ， 在 渠道 方面 , 现 有 的 推广 渠道 单一 ， 
受 限 于 集团 服务 营销 管控 及 CRM 系统 升级 ， 目 前 只 有 和 娱乐 周刊 端口 开展 营销 ， 缺 
乏 基 于 场景 、 内容 且 能 快速 命中 目标 客户 的 推广 渠道 。 未 来 我 们 可 以 拓展 网 台 、 网 格 、 
掌 厅 、 微 厅 等 线 上 线 下 大 数据 支撑 能 力 ， 利 用 不 断 优化 的 数据 挖掘 模 型， 实现 在 合适 
的 场景 、 对 合适 的 客户 快速 进行 适 配 的 和 业务 产品 营销 推广 。 





Ceci 


8.4.1 AR 


在 2014 年 亚洲 通信 博览 会 上 ， 中 国 移动 提出 了 “三 条 曲线 ”发 展 模式 : 第 一 条 
曲线 是 以 语音 和 短 彩信 为 代表 的 传统 移动 通信 业务 ; 第 二 条 曲线 是 流量 业务 ;第 三 条 
曲线 是 以 内 容 应 用 发 展 数字 化 服务 ， 如 图 8-64 所 示 。 
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图 8-64 “三 条 曲线 ”发 展 模式 


目前 ， 中 国 移动 正 处 在 语音 经 营 向 流量 经 营 、 数 字 化 服务 转变 的 过 程 中 ， 第 一 条 
曲线 已 经 到 项 并 且 开 始 下降 。 第 二 条 流量 曲线 目前 随 着 三 家 运营 商 4G 的 快速 发 展 ， 
在 4G 带动 下 增长 迅速 ， 成 为 当前 市 场 的 营销 重点 。 

但 从 实际 工作 来 看 ， 用 户 数据 流量 的 使 用 主要 受 限 于 其 套餐 内 的 流量 。 一 方面 从 
用 户 角度 考虑 ， 大 部 分 普通 用 户 除了 特殊 情况 ， 是 不 会 大 量 使 用 套餐 内 流量 包 的 。 部 
分 用 户 甚 至 出 现 每 到 月 底 或 是 20 号 之 后 ， 就 开始 “抑制 ”自己 使 用 手机 流量 ， 因 为 
套餐 内 流量 可 能 已 经 所 剩 无 几 。 这 样 不 仅 会 导致 用 户 体验 的 下 降 也 会 一 定 程度 上 影响 
一 部 分 运营 商 的 利润 。 

另 一 方面 从 运营 商 的 角度 考虑 ， 可 以 适当 地 引导 用 户 使 用 适宜 使 用 情况 和 使 用 习 
惯 的 套餐 或 流量 包 ， 这 样 既 可 以 减少 用 户 “ 抑 制 ” 流 量 使 用 而 带 来 的 不 适 体验 ， 提 高 
用 户 满意 度 ， 也 可 以 一 定 程度 上 增加 数据 流量 的 营销 ， 一 举 两 得 。 因 为 随 着 互联 网 的 
普及 及 手机 作为 使 用 最 广 的 移动 终端 ， 用 户 对 于 手机 终端 的 数据 流量 需求 一 定 是 在 
日 益 增加 的 。 适 当 利 用 套餐 升 档 或 是 套餐 精准 适 配 这 一 营销 点 可 以 创造 可 观 的 利润 
效果 。 

但 是 ， 一 方面 ， 很 多 用 户 是 不 知道 自己 真正 需要 哪 种 套餐 的 ， 或 是 不 知道 哪 种 套 
餐 最 合适 自己 。 这 是 可 以 理解 的 。 因 为 移动 公司 的 各 种 套餐 和 流量 包 有 几 百 上 千 种 ， 
用 户 的 迷茫 也 是 用 户 一 直 没 有 进行 套餐 调整 或 升 档 的 一 个 主要 原因 。 另 一 方面 ， 目 前 
流量 包 升 档 的 营销 方式 仍 较 粗放 , 无 法 精准 定位 目标 用 户 , 容易 导致 营销 资源 的 浪费 。 
误 判 营销 人 群 ， 也 就 是 去 主动 营销 那 部 分 完全 没有 升 档 需求 的 客户 ， 必 将 会 提高 对 于 
用 户 的 打扰 ， 降 低 用 户 满意 度 ， 并 且 也 浪费 了 营销 资源 ， 漏 判 营销 人 群 ， 也 就 是 没有 
找到 需要 升 档 的 客户 ， 会 导致 不 能 及 时 帮助 有 需求 的 用 户 找到 合适 自己 的 套餐 ， 既 无 
法 帮助 用 户 减 少 “ 抑 制 ”流量 使 用 的 篮 众 情况 ， 也 无 法 为 公司 创造 更 高 的 价值 。 

因此 ， 我 们 可 以 借助 大 数据 工具 对 有 流量 升 档 用 户 的 消费 、 流 量 使 用 习惯 等 行为 
进行 分 析 ， 一 方面 精准 定位 营销 群体 ， 提 升 营 销 成 功率 ; 另 一 方面 通过 数据 挖掘 的 方 


345 | 


| 346 


大 数据 、 数 据 挖掘 与 智慧 运营 


法 预测 最 合适 用 户 的 4G 套餐 ， 在 通过 渠道 给 用 户 营销 的 时 候 就 提前 帮助 用 户 找到 最 
合适 的 套餐 ， 减 少 用 户 的 负担 。 通 过 这 种 方法 ， 既 可 以 提高 用 户 满意 度 ， 也 可 以 通过 
套餐 的 升 档 为 公司 创造 更 高 的 价值 。 


8.4.2 挖掘 潜在 客户 群体 


对 于 套餐 精准 适 配 的 课题 ， 常 用 的 数据 字段 有 很 多 ， 挑 选 一 些 常用 的 展示 在 
表 8-3 中 。 


R83 ”套餐 精准 适 配 常用 数据 字段 


确定 套餐 精准 适 配 这 一 课题 , 也 就 是 要 通过 挖掘 用 户 的 历史 消费 数据 、 流量 数据 ， 
甚至 位 置 或 基站 信息 等 找到 最 适合 用 户 使 用 情况 的 套餐 。 在 这 之 前 ， 实 际 还 需要 解决 
的 一 个 问题 就 是 要 寻找 潜在 客户 ， 也 就 是 哪些 人 是 适合 套餐 变化 或 是 流量 套餐 升 档 
的 。 因 为 其 实 有 一 部 分 用 户 当前 的 流量 套餐 已 经 是 非常 适合 自己 的 使 用 情况 ， 那 么 他 
们 就 没有 这 方面 的 需求 了 ， 再 去 考虑 他 们 不 仅 会 浪费 时 间 ， 而 且 如 果 再 对 他 们 进行 营 
销 还 会 造成 用 户 打 扰 。 

为 了 更 好 地 寻找 潜在 的 需要 流量 升 档 的 用 户 ， 我 们 需要 从 数据 层面 定义 什么 人 需 
要 流量 升 档 ， 例 如 ， 当 套餐 外 流量 超出 一 定数 量 或 套 外 流量 占 套 内 流量 比例 高 达 一 定 
数值 时 ， 我 们 就 认为 这 部 分 用 户 有 升 档 套餐 的 需要 ， 因 为 他 们 的 套 内 流量 不 够 用 了 。 
拿 套 外 流量 占用 户 总 使 用 流量 比 为 例 ， 我 们 可 以 定义 该 比例 高 于 0.4 时 ， 此 类 用 户 为 
需要 套餐 升 档 〈 正 样本 ) ， 记 为 1; 该 比例 低 于 0.4 时 ， 此 类 用 户 不 需要 套餐 升 档 ( 负 
样本 ) ， 记 为 0， 通 过 这 种 方式 就 可 以 从 数据 层面 更 实际 地 描述 问题 。 除 了 进行 0 和 
1 的 二 分 类 ， 还 可 以 进行 多 分 类 ， 即 该 比例 高 于 0.4 记 为 1; 比例 在 0~0.4 区 间 内 的 
记 为 0， 比 例 小 于 0 的 记 为 -1， 这 种 区 分 方法 也 是 可 以 的 。 

以 上 这 种 数据 处 理 的 方式 在 SPSS 中 的 对 应 操作 中 可 以 通过 “转换 ”完成 ， 以 下 
以 二 分 类 为 例 讲述 如 何 对 目标 变量 进行 数据 转换 处 理 。 

(1) 原始 目标 字段 为 “ 超 套 餐 流 量 占 总 使 用 流量 比 ”， 这 是 一 个 在 [0,1] 闭 区 间 
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的 数值 型 变量 。 我 们 希望 通过 这 一 经 分 数据 划 定 并 区 分 本 课题 所 需要 研究 的 目标 客户 
群 ， 也 就 是 想 找到 有 套餐 升 档 需 要 的 用 户 。 假 定 我 们 认为 “ 超 套 餐 流量 占 总 使 用 流量 
比 ” 大 于 等 于 0.4 的 为 正 样本 ， 小 于 0.4 的 为 负 样本 。 我 们 只 需要 通过 这 种 判决 方法 
新 生成 一 个 “是 否 需要 升 档 ” 的 新 字段 即 可 。 单 击 “ 转 换 CT) 一 重新 编码 为 不 同 变 
量 (R) ”， 如 图 8-65 所 示 。 


rm 一 Pa A aa EN a x 
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na ' 
oh 
mm 
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-= ‘ 
= 
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图 8-65 将 原始 字段 重新 编码 为 新 的 目标 字段 


(2) 将 “ 超 套餐 流量 占 总 使 用 流量 比 ”移入 “输出 变量 ”， 并 定义 新 得 到 的 变 
量 名 为 “是 否 需要 升 档 ”， 再 单 击 “ 更 改 ”， 如 图 8-66 所 示 。 











(GD Ce 个 > 过》 
= see Mite) Gay m 
图 8-66 “重新 编码 为 其 他 变量 ”对 话 框 
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G) 单 击 “新 值 和 旧 值 ”。 在 “ 旧 值 ”中 选 定 范围 为 [0, 0.4], 对 应 的 新 值 为 “0”， 
单 击 “ 添 加 ”; 在 “ 旧 值 ”中 选 定 范围 [0.4，1]， 对 应 的 新 值 为 “1”， 再 次 单 击 “ 添 





加 ”， 如 图 8-67 所 示 。 
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8-67 ”对 于 原始 变量 进行 重新 编码 


(4) 单 击 “ 继 续 ” 就 会 回 到 “重新 编码 为 不 同 变量 ”， 不 同 的 是 ， 此 时 的 “ 确 
定 ” 按 钮 已 经 是 可 以 单 击 的 状态 , 也 就 是 我 们 完成 了 重新 编码 的 标志 , 如 图 8-68 所 示 。 
此 处 单 击 确定 即 可 以 生成 一 个 新 的 “是 否 需 要 升 档 ” 字 段 。 该 字段 只 有 0 和 1 两 个 值 ， 
分 别 对 应 本 课题 的 正 负 样本 ， 正 样本 为 “ 超 套餐 流量 占 总 使 用 流量 比 ” 在 04 和 1 之 


间 的 ， 剩 余 的 为 负 样 本 。 
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8-68 单 击 “ 确 定 ” 即 可 生成 重新 编码 的 字段 


对 用 户 群 进行 类 别 区 分 的 定义 ， 是 为 了 利用 分 类 算法 的 预测 功能 来 寻找 潜在 的 
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用 户 群 。 以 二 分 类 树 为 例 ， 我 们 可 以 通过 对 已 有 的 历史 数据 进行 决策 树 建 模 ， 在 验证 
其 拓展 性 之 后 ， 用 于 预测 下 个 月 或 全 量 数据 中 有 哪些 用 户 是 属于 有 流量 套餐 升 档 需求 
的 ， 也 就 是 预测 正 样本 。 找 到 了 的 这 些 用 户 ， 就 是 潜在 的 客户 群体 ， 对 于 本 课题 来 说 ， 
就 是 需要 流量 升 档 的 用 户 。 


84.3 ”探寻 强 相关 字段 


在 定义 问题 并 寻找 可 能 有 升 档 需求 用 户 的 同时 ， 我 们 需要 为 多 元 线性 回归 模型 寻找 
与 最 终 问题 比较 相关 的 一 些 自 变量 , 当 作 回归 模型 中 影响 最 终 预测 结果 的 影响 因素 。 

总 体 思 路 是 : 通过 数据 挖掘 方法 寻找 哪些 字段 和 目标 字段 “是 否 有 套餐 升 档 需 求 ” 
的 相关 性 比较 高 ， 如 有 升 档 需求 为 正 样 本 ， 记 为 1; 无 升 档 需求 为 负 样 本 ， 记 为 -1。 
直接 利用 SPSS 进行 相关 性 分 析 ， 具 体操 作 在 第 五 章 有 详细 介绍 ， 此 处 展示 部 分 相关 
性 系数 表 ， 如 表 8-4 所 示 。 








表 8-4 ”部 分 相关 性 系数 表 
相关 性 


| 相关 性 | 
上 月 使 用 | 近 三 个 月 | 近 三 个 月 | 流量 使 用 | 当月 剩余 基础 套 | 超 套餐 
流量 | MOU 均值 | DOU 均值 | 增长 率 | 餐 免费 上 网 流量 | 流量 
Pearson 


近 三 个 月 MOU | Pearson 


0.064 0.079 0.007 0.035 0.099 
均值 相关 性 foo | 


i = ^Â H DOU] Pearson 
0.835 0.079 0.009 0.002 0.636 
均值 相关 性 


流量 使 用 增长 率 0.007 0.009 
当月 剩余 基础 套 

餐 免费 上 网 流量 i 0.035 0.002 
超 套餐 流量 0.099 0.636 


但 是 ， 问 题 在 于 相关 性 系数 只 存在 于 数值 型 变量 之 间 ， 所 以 从 这 一 步 开始 ， 要 着 
手 对 数据 进行 处 理 实际 的 预 处 理工 作 ， 即 得 到 的 实际 数据 一 般 都 是 “ 脏 、 乱 、 差 ”的 。 
原因 在 前 面 的 第 2 章 已 有 叙述 ， 此 处 不 再 袭 述 。 首 先 说 下 数据 的 采集 。 实 际 工程 是 在 
上 千 个 字段 中 初步 选 出 141 个 字段 ， 涵 盖 客 户 基本 信息 、 资 费 及 活动 办 理 情况 、 消 费 
情况 、 上 网 行为 、 渠 道 接触 情况 等 ， 经 过 三 次 反复 取 数 、 检 查 、 重 新 梳理 字段 的 过 程 ， 
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最 终 取出 5、6、7 三 个 月 每 月 套餐 升 档 成 功 和 未 升 档 的 用 户 样本 各 30 万 个 ， 共 180 
万 条 数据 ，108 个 字段 。 我 们 的 预 处 理 贯穿 了 整个 采集 的 过 程 和 数据 采集 完 建 模 之 前 ， 
预 处 理 的 要 点 与 前 面 组 类 似 ， 比 如 : 删除 无 效 字段 ， 我 们 一 开始 是 选 有 一 个 字段 是 终 
端的 价格 的 ， 但 最 后 能 取出 的 数据 量 很 少 ， 无 法 使 用 ， 只 能 删除 了 。 


844 多 元 线性 回归 建 模 


首先 回忆 一 下 多 元 线性 回归 模型 。 假 定 因 变量 了 与 n ARE, X ees x, 之 间 

的 关系 可 以 近似 用 线性 函数 来 反映 。 那么 ,多 元 线性 回归 模型 的 一 般 形式 如 式 (8-1) 。 
Y=potBixithrst**+B ate (8-1) 

式 中 ，s 是 随机 扰动 项 ，Pb。，P,，…，Pp, 是 总 体 回归 系数 。 

在 本 例 中 ,， 了 就 是 预测 的 用 户 流量 ， 也 就 是 因 变 量 。 并 且 我 们 在 上 一 步 已 经 寻 
找 了 强 相关 字段 ， 也 就 是 上 述 公 式 的 xm，x*，…，m%。 我们 需要 做 的 就 是 直接 在 软件 
中 进行 多 元 线性 回归 建 模 操作 ， 算 出 所 有 自 变量 xm，z，…，x 对 应 的 回归 系数 Ao 
By vy Ba BETT. 

在 SPSS 中 的 具体 操作 为 : 

(1) 在 菜单 上 依次 选择 “分 析 CA) 一 回归 CRD 一 线性 (L) ”， 如 图 8-69 所 示 。 











s æje zje s 
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8-69 选择 “线性 ” 
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(2) 在 打开 的 “线性 (L) ”对 话 框 中 , 将 变量 “当月 使 用 流量 ”移入 “ 因 变 量 (D)” 
中 ,将 “当月 DOU” 移 入 “ 自 变 量 D ”列表 框 中 。 在 “方法 CM) ”选项 框 中 选 
择 “ 进 入 ”选项 ， 表 示 所 选 的 自 变量 全 部 进入 回归 模型 ， 如 图 8-70 所 示 。 
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图 8-70 ”线性 回归 对 话 杠 


最 后 得 到 的 了 关于 x 的 方程 就 是 多 元 线性 回归 的 模型 ， 如 下 式 所 示 : 

Y=12.717* 当月 总 订购 流量 使 用 率 含 递 延 +9.997* 当月 流量 可 选 包 流量 使 用 率 含 
递 延 -5.250* 当月 套餐 内 使 用 流量 占 总 免费 流量 使 用 比重 -3.214* 当月 套餐 内 免费 流 
量 占 总 免费 流量 的 占 比 +0.521 。 

其 中 “当月 套餐 内 使 用 流量 占 总 免费 流量 使 用 比重 ”是 人 为 添加 的 字段 。 进 行 字 
段 转换 调整 优化 后 ， 流 量 占 比 相关 系数 最 高 达 0.784。 由 此 可 见 ， 当 原始 字段 分 析 效 
果 不 理想 时 ， 数 据 转换 就 显得 尤为 重要 。 


845 制定 层次 化 、 个 性 化 精准 营销 方案 


有 了 初步 的 模型 ， 我 们 就 可 以 预测 出 哪 部 分 有 升 档 需求 的 客户 真正 需要 的 流量 套 
餐 是 哪个 或 哪 种 价格 区 间 的 了 ， 那 么 就 可 以 开始 进行 营销 方案 的 制定 ， 着 手 对 其 进行 
精准 营销 。 传 统 的 方法 是 地 毯 式 营销 ， 即 对 营销 用 户 推荐 同一 款 流量 包 或 套餐 ， 由 于 
用 户 的 需求 有 很 大 不 同 ， 这 种 做 法 很 容易 造成 大 范围 的 用 户 打扰 。 所 以 ， 在 具体 营销 
时 ， 需 要 建立 层次 化 、 个 性 化 的 精准 营销 方案 。 

所 谓 层 次 化 ， 就 是 要 通过 各 个 不 同 的 维度 对 用 户 进行 分 层 聚 侯 ， 如 可 以 按照 流量 
使 用 情况 、 消 费 水 平和 超 套 餐 流 量 占 比 等 属性 对 用 户 进行 率 类 。 在 经 过 详细 的 分 层 之 
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后 ， 对 于 不 同类 别 的 用 户 进行 分 层 分 类 的 精准 营销 ， 以 降低 用 户 打扰 ， 减 少 投诉 并 提 
高 用 户 的 满意 度 。 所 谓 个 性 化 ， 就 是 更 加 细 化 、 更 加 精准 的 营销 。 对 于 每 个 需要 营销 
的 客户 ， 使 用 最 适合 的 营销 方式 、 营 销 渠 道 、 营 销 话 术 ， 以 及 最 重要 的 ， 对 于 每 个 用 
户 的 营销 内 容 要 精准 到 位 。 因 此 ， 数 据 挖 据 中 分 类 算法 的 预测 功能 就 显得 尤其 重要 ， 
这 种 预测 功能 也 就 很 好 地 实现 了 “ 猜 你 喜欢 ”， 预 测 每 个 用 户 的 需求 和 喜好 ， 以 更 好 
地 完成 个 性 化 精准 营销 。 

在 这 个 套餐 精准 适 配 项 目 中 ， 用 模型 计算 出 有 升 档 需求 的 用 户 所 真正 需要 的 流量 
数量 ， 并 对 应 到 相应 数额 或 价格 的 流量 套餐 中 ， 这 些 具体 的 流量 套餐 就 是 在 营销 时 给 
每 个 用 户 不 同 的 营销 内 容 ， 由 于 每 个 人 的 需求 是 不 一 样 的 ， 所 以 才 叫 “个 性 化 ” 营销 。 
具体 来 说 ， 本 项 目 先 将 有 升 档 需求 的 用 户 通过 多 个 属性 聚 为 9 个 马 ， 在 计算 出 其 需要 
的 流量 套餐 内 容 的 基础 上 ， 对 9 筷 用 户 分 别 进行 9 种 不 同 的 营销 方案 ， 实 现 层次 化 、 
个 性 化 精准 营销 。 





8.4.6 ”落地 效果 评估 与 模型 调 优 


落地 方式 为 人 工 外 呼 ， 将 外 呼 客户 分 成 两 部 分 ， 一 部 分 为 建 模 目标 客户 (11477 
DO ; 另 一 部 分 为 非 目标 客户 数据 (45153A) ， 总 体 对 比 结果 如 表 8-5 所 示 。 


表 8-5 落地 效果 对 比 


接触 量 营销 成 功率 | 较 非 目标 提升 


和 标记 


对 于 套餐 精准 适 配 模型 ， 目 标 客户 营销 成 功率 较 非 目标 平均 提升 为 5.8pp。 不 同 
客户 群 ， 营 销 成 功率 分 布 如 图 8-71 所 示 。 

初步 模型 的 效果 还 是 比较 明显 的 ， 营 销 成 功率 有 比较 明显 的 提升 。 对 于 模型 调 
优 的 问题 ， 多 元 线性 回归 方法 昌 然 也 有 预测 功能 ， 但 其 区 别 于 经 典 分 类 算法 的 地 方 在 
于 它 的 ROC 曲线 不 是 很 好 画 ， 因 此 用 回归 方法 建 出 的 模型 调 优 不 太 容易 ， 基 于 寻找 
ROC 曲线 上 的 最 优 营销 点 来 实现 。 回 归 模 型 的 调 优 主 要 通过 数学 计算 层面 来 优化 拟 
合 度 等 模型 参数 进行 ， 其 计算 方法 过 于 复杂 ， 有 兴趣 的 读者 可 以 参照 本 章 末 的 参考 文 
献 。 在 实际 工程 中 ， 如 果 需 要 调整 ， 可 以 通过 转换 的 方式 增加 一 些 字段 ， 看 是 否 能 增 
加 一 些 和 目标 变量 更 加 相关 的 字段 。 也 就 是 ， 在 找到 一 些 能 更 好 解释 回归 模型 中 因 变 
量 的 自 变量 来 提高 曲线 的 拟 合 程度 ， 来 提高 模型 的 预测 能 力 。 
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图 8-71 落地 效果 对 比 





























近 几 年 ， 新 兴 通 信 业 务 对 传统 通信 运营 商 构成 了 很 大 的 威胁 ， 在 竞争 过 程 中 ， 并 
购 、 重 组 等 大 的 战略 调整 屡见不鲜 。 如 何 保证 大 量 广告 宣传 和 营销 服务 的 投入 效果 ， 
保持 业务 优势 ， 是 传统 通信 运营 商 考虑 的 重 中 之 重 ;， 其中， 客户 资源 维持 是 提升 其 利 
涧 率 和 ARPU 值 (每 用 户 平均 收入 ) 的 重要 标志 , 客户 流失 率 则 是 运营 商 最 终 ROI( 投 
资 回报 率 ) 评估 的 重要 参考 系数 ， 因 此 客户 关系 管理 在 传统 通信 运营 商 的 管理 环节 中 
显得 尤为 重要 。 移 动 通 信和 领域 的 客户 流失 有 三 个 方面 的 含义 : 一 是 指 客户 从 本 移动 运 
营 商 转 网 到 其 他 电信 运营 商 ， 这 是 流失 分 析 的 重点 。 二 是 指 客户 使 用 的 手机 品牌 发 生 
改变 ， 从 本 移动 运营 商 的 高 价值 品牌 转向 低 价值 品牌 ， 如 中 国 移动 的 用 户 从 全 球 通 客 
户 转 为 神州 行 客户 。 三 是 指 客户 ARPU〈 指 每 用 户 月 平均 消费 量 ) 降低 ， 从 高 价值 客 
户 成 为 低 价值 客户 。 目 前 ， 大 部 分 运营 商都 构建 了 客户 关系 管理 系统 ， 但 只 局 限于 业 
务 受 理 、 营 业 、 收 费 、 投 诉 等 基本 功能 的 实现 ， 对 于 客户 离 网 流失 的 关注 非常 有 限 
系统 的 分 析 功 能 也 仅 局 限 在 对 投诉 、 故 障 等 指标 的 统计 上 报 ， 无 法 完成 从 发 现 客户 有 
流失 倾向 到 客户 维系 挽留 的 闭环 处 理 。 客 户 流失 分 析 如 何 实现 客户 流失 分 析 包 括 流失 
预警 和 挽留 两 大 功能 模块 ， 其 中 可 以 解决 如 下 业务 问题 : (1) 话 务 量 增加 或 减少 N% 
的 顾客 有 什么 特征 ? 有 什么 行为 习惯 ? 是 否 为 有 理 投诉 ? (2) 哪些 客户 将 流失 转 至 
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其 他 竞争 公司 ? 客户 离开 的 原因 是 什么 ? G) 预测 一 定时 间 内 有 高 网 可 能 性 的 客户 
范围 。 (4) 哪些 群 组 是 公司 的 大 客户 群 ， 等 级 如 何 ? (根据 风险 、 产 品 或 服务 、 收 
益 来 分 类 ) 将 上 千 笔 业务 归纳 、 总 结 ， 找 出 客户 特征 ， 提 高 销售 能 力 。 大 数据 客户 生 
命 周 期 如 图 8-72 所 示 。 


大 数据 客户 生命 周期 管理 





Bre: IME: | 阶段 3， ‘peas mas | 
PR BPH RP APIU [EPRI 


. 如 何 发 现 | 如 何 把 客 。 如 何 全 客户 EK Sor 
并 获取 潜 | 户 培养 成 ， 使 用 新 产品 ?客户 “ 生 | 客户 | 
在 客户 ? ;高 价值 客 ; 如 何 培养 客 ， 命 周期 ”? ; 
| 户 ? 上 户 的 忠诚 度 ? 
“通过 算法 | cece te ae | 
. 大 数据 | 控 气 高 潜 ， 规则 等 算 | 行 精准 推荐 ， 据 进行 流 | 数据 控 | 
PE O Fe | 法 进行 交 | * 客户 忠诚 计划 RME | M 
| 又 销售 | : | 回流 客户 
HR: AR ERR LS OT HR 


图 8-72 大 数据 客户 生命 周期 














8.5.1 总 结 客户 流失 的 历史 规律 


客户 保有 问题 在 运营 商 的 实际 运营 中 是 通过 营销 新 的 业务 或 服务 来 解决 与 应 对 
的 。 通 过 历史 营销 经 验 发 现 运营 商 与 用 户 签订 合约 对 效益 增收 、 客 户 保有 具有 明显 的 
拉动 作用 。 因 此 客户 保有 问题 可 以 转化 为 业务 营销 问题 ， 其 中 ， 目 标 客户 群 为 潜在 流 
失 客户 ， 对 这 部 分 客户 进行 外 呼 营销 ， 从 而 达到 客户 保有 和 经 济 效益 提升 的 目的 。 在 
生产 实践 中 ， 影 响 客户 流失 的 特征 与 因素 有 很 多 ， 所 涉及 的 字段 包含 一 些 基 本 的 客户 
信息 字段 如 性 别 、 年 龄 等 及 业务 相关 数据 如 总 消费 、 总 流量 、 总 通话 时 长 、 客 户 星 级 、 
入 网 月 份 等 经 分 字段 。 根 据 项 目 实际 可 采集 到 数据 情况 ， 提 取 与 目标 变量 相关 性 较 高 
的 属性 字段 ， 挖 掘 潜在 目标 客户 。 

本 节 为 了 充分 挖掘 客户 流失 规律 ， 分 别 采 集 了 7 一 9 月 ,每 月 约 30.9 万 条 数据 ， 
K 110 个 属性 字段 ， 其 中 部 分 字段 如 表 8-6 所 示 ， 其 中 “是 否 离 网 ”作为 目标 变量 ， 
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将 未 离 网 标记 为 1, 代表 未 流失 客户 其 他 状态 均 标 记 为 0, 代表 客户 流失 。 经 统计 分 析 ， 
离 网 客户 所 占 比 例 约 为 10%， 从 离 网 比例 可 以 看 出 ， 客 户 流失 管理 问题 是 典型 的 数 
据 集 不 平衡 问题 。 本 节 将 以 7 月 数据 作为 训练 集 数 据 ， 生 成 分 类 预测 规则 。 


表 8-6 ”客户 流失 部 分 数据 属性 及 说 明 

分 类 备注 

ITO FOR 

[是否 离 网 ”| 否 (未 离 网 ) ; 是 ( 离 网 ) 

统计 当月 的 客户 星 级 

pac 

TB at 

区 分 学 生 、 集 团 客户 、 大 众 客户 

SO 账 务 预 销 户 、 营业 预 销 户 、 账 务 销 户 、 营业 销 
、 正 常用 户 

EI ii 元 

位 : MB 

位 : 分 钟 


前 1 一 4 个 月 停机 次 数 包含 单 向 停机 和 双向 停机 
前 1 一 4 个 月 是 否 漫游 
前 1 一 4 个 月 主 叫 次 数 
前 1 一 4 个 月 被 叫 次 数 


基于 数据 分 布 特点 ， 数 据 的 预 处 理工 作 主要 包括 清除 噪声 数据 、 清 除 元 余数 据 、 
归 一 化 等 。 在 SPSS 软件 中 的 具体 操作 参见 8.2 节 和 8.4 节 中 的 相关 操作 步骤 。 经 分 
析 与 客户 流失 相关 性 最 强 的 前 三 个 字段 为 : 前 1 个 月 交往 圈 总 客户 数 、 前 1 个 月 停机 
次 数 和 前 1 个 月 客户 星 级 。 

根据 预 处 理 后 的 7 月 数据 ， 以 “是 否 离 网 ”作为 目标 变量 ， 采 用 决策 树 算法 进行 
分 类 建 模 ， 利 用 SPSS 软件 中 “分 析 CAD 一 分 类 (F) > BCR) ”功能 中 CHAD 
决策 数 算法 ， 对 训练 数据 集 的 建 模 任务 ， 具 体 步 骤 参 见 8.2.1 节 。 该 模型 性 能 评估 的 
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ROC 曲线 采用 自主 开发 的 数据 挖掘 软件 进行 绘制 ， 如 图 8-73 所 示 。 
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8-73 ”基于 训练 集 客户 保有 模型 的 ROC 曲线 


注意 ， 该 界面 为 科研 组 自主 研发 的 数据 挖掘 软件 性 能 评估 界面 ， 软 件 还 襄 括 多 种 
数据 挖掘 功能 ， 包 括 数 据 预 处 理 、 聚 类 分 析 、 分 类 分 析 、 关 联 分 析 等 。 若 读者 对 该 软 
件 感 兴趣 ， 可 联系 作者 索要 试用 版 。 

从 图 8-73 中 可 以 看 出 ， 基 于 训练 集 的 模型 性 能 极 好 ， 但 通过 分 析 模 型 所 输出 
的 规则 文件 ， 我 们 发 现在 流失 客户 特征 的 挖掘 中 最 关键 的 属性 为 “前 1 个 月 停机 
次 数 ”， 然 而 在 实际 落地 应 用 时 ， 由 于 数据 实时 性 问题 ， 基 于 客户 前 1 个 月 的 数 
据 特 征 无 法 及 时 完成 对 目标 客户 的 挽留 工作 ， 因 此 在 进入 下 一 步 分 析 前 对 训练 集 
模型 进行 优化 ， 剔 除 客户 所 有 前 1 个 月 相关 属性 ， 并 完成 对 客户 流失 预警 的 重新 建 
模 与 分 析 。 

优化 后 模型 的 ROC 曲线 如 图 8-74 所 示 ， 对 比 图 8-73， 可 以 看 出 剔除 最 相关 的 前 
1 个 月 的 数据 后 ， 模 型 性 能 有 所 下 降 ， 但 其 可 落地 实施 性 具有 较 大 提升 。 此 时 ， 与 客 
户 流失 相关 性 较 强 的 前 两 个 字段 为 : 前 2 个 月 总 通话 次 数 、 常 驻 网 络 类 型 。 
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8-74 优化 后 客户 保有 模型 的 ROC 曲线 


85.2 ” 细 分 潜在 流失 客户 群体 


同样 ， 在 模型 构建 完成 后 ， 需 要 对 其 泛 化 能 力 进行 验证 ， 本 节 采 集 了 7 一 9 
月 的 数据 ， 其 中 7 月 的 数据 作为 训练 集 ， 生 成 上 述 分 类 模型 ， 而 8 月 和 9 月 的 数 
据 均 可 以 作为 测试 集 进 行 验证 分 析 。 使 用 自主 研发 软件 完成 验证 工作 ， 将 规则 文 
件 应 用 分 别 应 用 到 8 月 和 9 月 的 数据 集 进行 模型 验证 , 得 到 的 验证 结果 分 别 如 图 8-75 
和 图 8-76 所 示 。 从 ROC 曲线 中 可 以 看 出 ， 模 型 的 泛 化 能 力 较 强 ， 可 以 应 用 到 实 
际 项 目 中 。 

对 潜在 流失 客户 群体 进行 细 分 与 8.2 节 类 似 ， 就 是 把 客户 按照 属性 特征 细 分 为 若 
干 个 小 的 群体 ， 每 个 客户 群体 间 客户 流失 概率 不 同 ， 但 客户 群体 内 部 客户 流失 概率 相 
同 。 因 此 ， 将 客户 细 分 为 多 个 具有 不 同 流失 概率 的 群体 后 ， 可 根据 流失 概率 大 小 排序 
对 部 分 客户 群 进行 重点 挽留 。 
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图 8-75 基于 8 月 测试 集 数据 的 ROC 曲线 
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图 8-76 基于 9 月 测试 集 数据 的 ROC 曲线 
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本 节 经 过 客户 群体 细 分 后 ， 潜 在 流失 客户 画像 如 下 : 

ada) 当 客户 前 两 个 月 被 叫 次 数 小 于 9 次 ， 且 常 驻 网 络 类 型 为 4G 或 不 详 时 ， 且 
入 网 月 份 小 于 87 时 ， 预 测 客户 流失 概率 为 68.0%; 

(2) 当 客 户 前 两 个 月 被 叫 次 数 处 于 (9, 24] 之 间 , 且 入 网 月 份 处 于 (23, 42] 之 间 ， 
且 常 驻 网 络 类 型 为 4G 或 不 详 时 ， 预 测 客户 流失 概率 为 42.5%; 

G) 当 客户 前 两 个 月 被 叫 次 数 处 于 (9，24] 之 间 ， 且 入 网 月 份 小 于 23 时 ， 预 
测 客户 流失 概率 为 35.4%; 

(4) 当 客 户 前 两 个 月 被 叫 次 数 小 于 9 次 ， 且 常 驻 网 络 类 型 为 4G 或 不 详 时 ， 且 
入 网 月 份 大 于 87 时 ， 预 测 客户 流失 概率 为 32.0%; 


8.5.3 客户 保有 效益 建 模 与 最 优 决策 


传统 方法 中 ， 对 于 决策 树 模型 ， 选 取 什么 样 的 客户 保有 方案 其 保有 成 功率 和 误 
判 率 的 综合 效果 是 最 好 的 呢 ? 这 个 就 涉及 之 前 提 到 的 ROC 曲线 。 对 于 一 个 既定 的 模 
型 来 说 ， 其 ROC 曲线 下 的 面积 即 AUC 是 一 定 的 ， 可 以 通过 适当 选取 营销 点 来 达到 。 
通过 之 前 对 ROC 曲线 的 描述 不 难 知道 ROC 曲线 上 效果 最 优 的 点 即 为 离 (0，1) 点 
最 近 的 营销 点 。 因 此 ， 在 选取 客户 保有 方案 的 时 候 ， 可 以 通过 选取 最 优 客户 保有 点 所 
对 应 的 客户 保有 方案 来 达到 最 优 营销 的 结果 。 

但 从 实践 应 用 角度 出 发 ， 什 么 样 的 客户 保有 模式 才 是 最 优 的 ? 对 于 任何 一 个 客户 
保有 方案 ， 最 终 评判 的 标准 就 是 营销 效益 。 把 哪些 客户 作为 营销 人 群 ， 采 用 什么 样 的 
方案 和 营销 利润 是 最 高 的 ， 那 么 这 样 的 营销 模式 就 是 最 优 的 。 因 此 ， 针 对 不 同 的 营销 
产品 和 营销 成 本 ， 需 建立 一 个 利润 模型 ， 同 时 还 要 考虑 到 营销 成 功率 ， 最 重要 的 是 要 
结合 决策 树 模型 的 成 功率 来 得 到 最 终 盔 利 的 模型 函数 。 

基于 利润 函数 ， 评 估 客 户 保 有 模型 的 性 能 与 效果 ， 利 润 函 数 如 下 : 

P=NroF (AV-Ac-d) -N (1-m) F, (ctd) (8-2) 

HH, NASP RR, 为 客户 终身 价值 ，c 为 挽留 刺激 成 本 ; 4 为 挽留 成 功率 ; 
d 为 触 点 成 本 ; m 为 流失 客户 占 比 ; Fy 为 模型 的 命中 率 ; F, 为 模型 的 误 判 率 ; F, 为 模 
型 的 成 功率 。 按 照 运营 商 实际 情况 ， 设 定 相关 参数 ， 挽 留成 功率 为 0.2， 单 个 活跃 用 
户 带 来 的 直接 利润 估算 为 67 元 /每 月 X24 个 月 ， 合 计 1608 元 ， 客 户 关怀 成 本 估算 为 
21 元 ， 代 入 利润 模型 可 知 ， 只 有 当 客 户 流失 预测 模型 的 成 功率 高 于 21/(1608X0.2) = 
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0.0653 时 ， 客 户 挽留 工作 的 直接 利润 才 会 大 于 0， 否 则 为 负 利 润 。 以 上 参数 均 可 依 
据 实 际 运营 情况 进行 调整 。 以 下 给 出 基于 业务 营销 模型 的 营销 评估 分 析 结 果 ， 如 
图 8-77 一 图 8-79 所 示 。 
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8-77 客户 保有 模型 基于 7 月 训练 集 数据 的 性 能 评估 


从 图 8-77 可 以 看 出 ， 对 于 7 月 30.9 万 训练 集 客户 ， 流 失 比 例 约 10%， 基 于 利润 
模型 分 析 可 得 ， 命 中 率 与 利润 值 呈 凸 函数 关系 ， 且 当 模 型 的 命中 率 、 误 判 率 、 成 功率 
分 别 取 0.86、0.21、0.24 时 ， 关 怀 客户 获得 的 直接 利润 最 大 ， 约 为 441.63 万 元 。 关 怀 
人 数 与 利润 值 也 为 凸 函数 关系 ， 而 命中 率 与 成 功率 为 负 相 关 ， 关 怀 人 数 与 关怀 成 功 人 
数 为 正 相 关 。 本 模型 在 构建 时 已 剔除 客户 前 1 个 月 所 有 相关 属性 ， 降 低 了 数据 的 实时 
性 要 求 ， 具 有 较 强 的 可 实施 性 。 

从 图 8-78 可 以 看 出 ， 基 于 8 月 30.9 万 测试 集 客 户 ， 流 失 比 例 约 为 10%， 当 模型 
的 命中 率 、 误 判 率 、 成 功率 分 别 取 0.91、0.25、0.29 时 , 关怀 客户 获得 的 直接 利润 最 大 ， 
为 761.61 万 元 。 

从 图 8-79 可 以 看 出 ， 基 于 9 月 30.9 万 测试 集 客 户 ， 流 失 比 例 约 为 10%， 当 模型 
的 命中 率 、 误 判 率 、 成 功率 分 别 取 0.91、0.29、0.29 时 , 关怀 客户 获得 的 直接 利润 最 大 ， 
为 871.29 万 元 。 

对 比 7 一 9 月 利润 曲线 可 看 出 ， 该 模型 具有 较 好 的 泛 化 能 力 。 
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图 8-78 客户 保有 模型 基于 8 月 测试 集 数据 的 性 能 评估 
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85.4 落地 效果 评估 


当 模 型 确定 后 ， 即 可 应 用 于 所 有 的 当前 客户 。 具 体 做 法 如 下 : 将 模型 应 用 于 待 分 
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析 数 据 ,能 够 得 到 每 个 客户 的 预测 结果 即 业务 营销 是 否 会 成 功 , 以 及 成 功 概率 等 信息 。 
我 们 最 终 会 筛选 出 所 有 适合 营销 的 客户 清单 。 

将 CHAID 决策 树 模型 输出 的 目标 客户 筛选 规则 ， 应 用 到 160 万 待 预测 客户 集 得 
选 目标 客户 ， 输 出 目标 客户 清单 ， 并 根据 清单 进行 客户 保有 。 由 于 外 呼 成 本 和 能 力 有 
限 ， 第 一 期 落地 客户 总 量 为 23727， 结 果 如 图 8-80 所 示 。 基 于 第 一 期 结果 调 优 后 ， 
第 二 期 落地 客户 总 量 为 47765， 结 果 如 图 8-81 所 示 。 


m 建 模 前 38.40% 
adie 


21.10% 






25.90% 25.20% 





一 期 二 期 
外 呼 总 量 | 接 通 总 量 | 接 触 总 量 | 办 理 总 量 


接 通 率 | 办 理 率 
(%) | (%) 
一 期 落地 数据 16203 | 5962 4312 1090 | 368 | 25.2 
一 期 同期 对 比 数据 | 9524 3688 2479 525 38.7 | 21.1 
二 期 落地 数据 4355 1654 1121 430 38.0 | 38.4 
二 期 同期 对 比 数据 | 43410 | 15961 | 11089 | 2870 | 368 | 25.9 


图 8-80 ”业务 办 理 量 情况 
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图 8-81 创收 效益 


对 比 同期 数据 可 以 看 出 成 功率 提高 了 ， 受 月 初 客户 不 愿 接听 外 呼 影响 ， 传 统 方式 
成 功率 为 21%， 利 用 模型 预测 的 目标 客户 ， 成 功率 提升 20% 以 上 。 模 型 调 优 后 在 接 
通 率 不 变 的 情况 下 ， 成 功率 提高 50%。 

经 过 两 期 模型 提 优 , 平均 工时 创收 较 传统 方式 提高 约 1 倍 。 可 见 建 模 对 外 呼 效 率 、 
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外 呼 营 销 收 入 有 明显 拉动 作用 。 本 节 通 过 数据 挖掘 算法 构建 模型 ， 在 全 量 客户 中 筛选 
出 适宜 进行 业务 营销 的 目标 客户 进行 业务 营销 ， 并 通过 与 客户 的 合约 来 达到 客户 价值 
提升 和 保有 的 目的 。 在 未 来 客户 保有 工作 中 ， 还 应 该 采取 个 性 化 营销 ， 针 对 不 同类 型 
的 客户 ， 推 送 不 同 的 业务 或 提供 优惠 活动 来 提高 客户 满意 度 ， 提 高 用 户 粘性 ， 降 低 客 
户 流失 率 。 


近年 来 ， 随 着 用 户 手 机 通信 需求 的 快速 变化 ， 尤 其 是 移动 互联 内 容 应 用 的 日 益 普 
及 ， 客 户 对 网 络 、 资 费 及 业务 等 各 环节 的 服务 能 力 和 标准 都 提出 了 新 的 要 求 ， 当 通信 
运营 商 不 能 及 时 满足 客户 变化 的 需求 时 ， 必 然 带 来 客户 抱怨 和 投诉 的 增长 。 在 资费 透 
明度 、 业 务 定 制 透 明度 及 服务 态度 和 技能 方面 ， 用 户 投诉 数量 及 复杂 程度 呈 明 显 上 升 
趋势 ， 并 成 为 了 社会 、 与 论 关注 的 焦点 。 这 一 方面 耗费 了 运营 商 大 量 人 力 物 力 ， 另 一 
方面 也 引起 了 消费 者 的 极 大 不 满 ， 对 运营 商 在 新 的 移动 互联 竞争 环境 下 维系 客户 带 来 
了 巨大 挑战 。 其 中 ， 用 户 投诉 所 造成 的 客户 满意 度 降低 ， 是 目前 各 运营 商 重点 关注 的 
问题 。 为 了 避免 由 于 客户 投诉 处 理 不 当 而 造成 的 客户 流失 ， 各 运营 商都 在 试图 寻找 更 
为 有 效 的 方法 和 措施 。 


8.6.1 客户 投诉 现象 分 析 


要 维护 客户 的 忠诚 ， 很 重要 的 就 是 与 客户 建立 和 维持 良好 的 关系 。 进 行 客户 关系 
管理 不 仅 要 提供 高 品质 的 产品 和 服务 ， 还 要 处 理 好 客户 抱怨 。 一 般 来 说 ， 投 诉 的 客户 
多 数 是 对 公司 有 好 感 ， 或 者 说 本 意 上 不 想 放弃 现 有 服务 的 群体 。 如 果 服 务 人 员 能 够 正 
确 、 有 效 地 处 理 好 客户 投诉 ， 就 能 够 有 效 挽 回 客 户 。 这 需要 制定 新 的 符合 客户 需求 变 
化 的 投诉 处 理 办 法 ， 并 建立 起 有 效 的 投诉 风险 管理 体系 ， 以 应 对 激烈 市 场 竞 争 所 带 来 
的 用 户 流失 问题 。 

对 于 从 事 移 动 通信 服务 的 企业 来 说 ， 服 务 失误 也 是 不 可 避免 的 。 服 务 失误 会 导致 
客户 的 不 满意 。 当 客户 对 服务 不 满意 时 ， 他 们 可 能 采取 的 后 续 行 为 有 : 将 其 不 满意 的 
经 历 告诉 其 他 客户 ， 形 成 不 良 口碑 传播 ;向 提供 服务 的 企业 或 者 其 他 部 门 投诉 ， 或 者 
直接 不 再 购买 企业 的 服务 或 产品 。 客户 投诉 处 理 流 程 如 图 8-82 所 示 。 


363 | 


| 364 


大 数据 、 数 据 挖掘 与 智慧 运营 


Q EARNER | 客服 中 必 
© ( 易 维 帮助 台 ) 

















图 8-82 ”客户 投诉 处 理 


目前 ， 国 内 电信 行业 处 理 用 户 的 投诉 主要 采取 事后 补救 措施 ， 但 收效 其 微 。 在 处 
理 客户 投诉 的 时 候 不 够 及 时 、 主 动 、 公 平 ， 是 客户 普遍 的 感受 。 从 某 移动 通信 运营 商 
近期 客户 满意 度 调 研 来 看 ，“ 投 诉 解决 情况 ”和 “处 理 时 间 可 接受 ”这 两 项 指标 的 客 
户 感知 也 明显 不 佳 。 从 近 两 年 的 通信 用 户 投诉 的 研究 情况 看 来 ， 目 前 国内 运营 商 投诉 
管理 中 存在 的 问题 包括 以 下 三 个 方面 : 

事前 ， 投 诉 预防 不 到 位 ， 投 诉 预警 实际 操作 存在 困难 ， 缺 乏 事前 分 析 的 信息 和 工 
具 ， 对 热点 问题 和 风险 问题 缺乏 有 效 监 控 。 

事 中 ， 处 理 效率 低 ， 处 理 效果 欠 佳 ， 投 诉 处 理 手段 有 限 ， 投 诉 信息 统计 滞后 。 

事后 ， 公 共 关 系 应 对 欠缺 ， 投 诉 顽疾 长 期 存在 ， 投 诉 处 理 没 有 闭环 。 

另外 ， 业 务 人 员 的 业务 熟悉 程度 较 差 ， 人 员 流动 频繁 、 专 业 性 差 、 业 务 说 明 不 够 
详细 ， 造 成 客户 理解 有 误 等 问题 也 长 期 存在 。 

本 节 以 流量 费用 质疑 数据 为 例 ， 分 别 采 集 了 8 月 和 9 月 费用 质疑 投诉 相关 数据 ， 
每 月 数据 总 量 40 万 条 ， 其 中 投诉 客户 与 非 投 诉 客户 比例 约 为 13。 主 要 采集 了 客户 基 
本 信息 字段 ， 近 3 个 月 相关 费用 字段 、 流 量 使 用 情况 字段 、 终 端 信息 、 热 线 交 互 情 况 
相关 字段 和 渠道 偏好 字段 等 ， 共 72 个 属性 字段 ， 其 中 部 分 字段 情况 参见 表 8-7。 

由 于 是 人 为 采集 的 数据 经 由 不 同 工 作 人 员 ， 来 自 不 同 渠 道 ， 总 是 有 各 种 缺陷 的 。 
常见 的 问题 是 数据 的 缺失 、 数 据 类 型 不 统一 、 格 式 错误 等 。 需 要 人 为 进行 处 理 使 其 规 
范 化 ， 便 于 后 续 使 用 软件 对 其 进行 数据 挖掘 分 析 。 进 行 预 处 理 包 含 以 下 内 容 ， 如 对 少 
量 缺 失 值 的 填充 ， 如 果 缺 失 过 多 就 有 必要 重新 采集 数据 ;对 错误 格式 的 记录 数据 进行 
过 滤 、 转 换 ， 对 部 分 字段 进行 必要 的 拆 分 或 汇总 ; 不 同 渠 道 采集 的 数据 的 合并 (注意: 
有 些 字段 在 业务 系统 中 并 不 直接 存在 ， 需 要 转换 得 到 ) 。 数 据 经 过 预 处 理 后 再 进行 数 
据 挖掘 会 明显 提高 挖掘 效果 ， 即 提高 模型 分 类 预测 精度 。 
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表 8-7 流量 费用 质疑 部 分 数据 属性 





年 龄 
网 龄 
客户 星 级 
当月 基础 语音 资费 套餐 名 称 
当月 流量 套餐 名 称 
付费 方式 
常 驻 小 区 类 型 
是 否 为 学 校 小 区 
是 否 为 敏感 客户 
se 
H i i 
H i i 
H | i 


























前 两 个 月 免费 流量 资源 总 量 (KB) 
前 1 个 月 免费 流量 资源 总 量 (KB) 
前 3 个 月 实际 产生 流量 (KB) 

前 两 个 月 实际 产生 流量 (KB) 

前 1 个 月 实际 产生 流量 (KB) 

前 3 个 月 超 流量 数量 (KB) 

前 两 个 月 超 套餐 流量 (KB) 

前 1 个 月 超 流量 数量 (KB) 

当月 2G 流量 

当月 3G 流量 

当月 4G 流量 














近 3 个 月 及 当月 流量 情况 
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采用 “ 双 变量 相关 分 析 ” 得 到 与 “当月 是 否 有 投诉 ”相关 性 字段 排序 , 如 表 8-8 所 示 ， 
在 SPSS 软件 中 的 具体 操作 参见 第 5 章 。 





表 8-8 双 变 量 相关 字段 排序 
字 R 
投诉 时 手机 是 否 属于 停机 
热线 评价 是 否 满意 
当月 拨打 10086 的 次 数 
近 1 年 是 否 有 投诉 话费 问题 
近 3 个 月 拨打 10086 热线 人 工 记录 次 数 

















近 3 个 月 月 均 投诉 次 数 
近 1 年 是 否 有 投诉 GPRS 费用 问题 
EEEE 





AR 8-8 可 以 看 出 ,与 “当月 是 否 有 投诉 ”相关 性 较 高 的 字段 均 为 热线 相关 字段 。 
分 析 其 原因 ， 在 数据 采集 过 程 中 ， 热 线 相关 字段 的 统计 中 包含 当月 的 投诉 数据 ， 两 者 
信息 存在 登 加。 因此， 在 分 析 过 程 应 剔除 该 部 分 数据 的 影响 。 





8.6.2 挖掘 潜在 客户 群体 


挖掘 潜在 客户 群体 ， 是 为 了 建立 完善 的 客户 投诉 预警 机 制 ， 扭 转 当 前 、 事 后 补救 
的 投诉 处 理 方式 ， 防 患 于 未 然 ， 通 过 监控 客户 基本 消费 与 缴费 信息 ， 对 潜在 投诉 客户 
进行 预警 及 主动 关怀 。 为 了 生成 目标 客户 群体 的 直观 性 画像 ， 本 节 同 样 采 用 决策 树 分 
类 算法 进行 建 模 分 析 ， 在 SPSS 软件 中 的 操作 步骤 与 8.2.1 节 中 的 步骤 一 致 。 在 8.6.4 
节 中 ， 我 们 提 到 由 于 热线 相关 数据 与 目标 变量 “当月 是 否 有 投诉 ”存在 一 定 的 包含 关 
系 ， 在 最 终 的 建 模 中 我 们 应 剔除 相关 因素 的 影响 。 本 节 我 们 将 包含 热线 相关 数据 的 模 
型 与 剔除 该 因素 影响 的 模型 进行 了 对 比分 析 ， 以 8 月 数据 作为 训练 集 ， 两 个 模型 的 分 
类 表 结 果 分 别 如 图 8-83 (a) 〈 包 含 热线 相关 数据 ) 和 图 8-83 (b) (剔除 热 线 相关 数据 》 
所 示 。 模 型 的 ROC 曲线 如 图 8-84 所 示 ， 其 中 剔除 热线 因素 的 影响 后 ， 模 型 ROC H 
线 下 面积 约 为 0.797。 

利用 9 月 数据 完成 对 最 终 模 型 (剔除 热线 因素 影响 ) 的 测试 与 验证 ， 利 用 SPSS 
中 INSERT 语句 得 到 验证 效果 , 具体 步骤 参见 8.2.2 节 。 测试 集 的 ROC 曲线 , 如 图 8-85 
所 示 ， 其 中 曲线 下 面积 约 为 0.749， 对 比 训练 集 数据 该 模型 具有 较 好 的 泛 化 能 力 ， 可 
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实际 应 用 。 
分 类 分 类 
已 预测 已 预测 
CMe o T [正确 百分比 | | CAN o T 1 [正确 百分比 
0 282862| 17138 | 94.3% 0 280694 | 19306 | 93.6% 
1 40986 | 59014 | 59.0% 1 72520 | 27480 | 27.5% 
总 计 百 分 比 | 81.0% | 19.0% | 85.5% 总 计 百 分 比 | 88.3% | 11.7% | 77.0% 
增长 方法 : CHAD 增长 方法 : CHAID 
因 变 量 列表 : 当月 是 否 有 投诉 因 变量 列表 : 当月 是 否 有 投诉 
(a) 包含 热线 相关 数据 分 类 表 (b) 剔除 热线 相关 数据 分 类 表 
图 8-83 ”决策 树 模型 
ROC 曲 线 





曲线 源 
一 剔除 热线 相关 数据 
一 一 包含 热线 相关 数据 

















0.0 02 04 06 08 ro 
1- 特 异性 
8-84 训练 集 数据 的 ROC 曲线 

ROC 曲 线 
0.8 
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® 

Bos 
02 
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8-85 ”测试 集 数据 的 ROC 曲线 
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8.6.3 制定 个 性 化 关怀 方案 


本 节 经 过 客户 群体 细 分 后 ， 具 有 投诉 风险 的 客户 画像 如 下 : 

(1) 当月 缴费 次 数 大 于 5， 且 当 月 实际 产生 流量 处 于 (280115，700309] 之 间 ， 
且 投 诉 当月 缴费 总 额 大 于 50， 预 测 客户 投诉 率 约 为 100%。 

(2) 当月 缴费 次 数 大 于 5， 且 当月 实际 产生 流量 处 于 (65873，280115] 之 间 ， 
且 当 月 超 流量 数量 大 于 2039， 且 投诉 当月 缴费 总 额 大 于 50， 预 测 客户 投诉 率 约 为 
87.8%. 

G) 当月 缴费 次 数 大 于 5， 且 当月 实际 产生 流量 大 于 700309， 预 测 客户 投诉 率 
约 为 56.2%。 

(4) 当月 缴费 次 数 处 于 (4，5] 之 间 ， 且 当月 超 流量 数量 大 于 55124， 预 测 客户 
投诉 率 约 为 43.6%。 

基于 上 述 画像 ， 结 合 实际 落地 需求 与 限制 ， 根 据 客户 特征 生成 关怀 策略 ， 如 引导 
客户 升级 流量 套餐 ， 引 导 客 户 使 用 App 终端 或 者 为 客户 提供 或 赠送 相关 优惠 产品 等 。 


在 目前 运营 商 的 网 络 现 关中， 流量 是 其 比较 关心 的 一 个 指标 ， 但 从 实际 分 析 得 出 
用 户 、 流 量 与 收入 增幅 线性 不 相关 ， 缺 乏 对 投资 效益 整体 分 析 的 有 效 模型 。 在 各 个 部 
门 的 协同 工作 中 也 有 多 重 问题 : 首先 ， 资 源 投放 方面 规划 不 足 ， 网 络 规划 不 是 简单 的 
高 流量 区 域 局 部 规划 ， 而 是 需要 一 种 四 网 协同 规划 策略 ， 其 次 ， 市 场 部 与 网 络 部 工作 
立场 不 同 ， 均 未 将 用 户 与 网 络 并 重 来 开展 工作 ， 协 同 力度 不 足 ， 最 后 ， 发 展 战略 与 经 
济 目标 方面 还 处 于 相对 混沌 状态 。 当 前 的 网 络 在 业务 逻辑 上 发 生 了 巨大 变化 ， 多 对 多 
通信 ， 业 务 方式 并 发 使 用 ， 业 务 量 与 资源 开销 相关 性 不 大 ， 经 济 价值 不 仅 针对 运营 商 
还 引入 了 互联 网 应 用 商 。 针 对 这 种 背景 ,为 适应 时 代 特 征 , 提出 四 网 协同 , 流量 经 营 ， 
智能 运营 。 

第 三 方 为 我 们 提供 具有 海量 数据 的 栅 格 平台 ， 主 要 是 将 区 域 地 理 信 息 栅 格 化 、 
规范 化 ， 准 确 标 示 每 个 地 理 栅 格 内 的 信息 ， 包 括 地理 信 息 、GSMTD-SCDMA/WLAN 
等 网 络 资源 信息 、 用 户 数据 、 终 端 信息 及 业务 数据 等 。 地 理 信 息 有 : 道路 、 建 筑 、 绿 
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地 等 。 网 络 资源 有 : 小 区 覆盖 数据 、 业 务 量 、 质 量 等 统计 指标 、 每 小 区 用 户 数 等 。 用 
户 数据 有 : 用 户 基本 信息 、 使 用 网 络 类 型 、 套 餐 信 息 、 月 费用 等 信息 。 终 端 信息 有 : 
品牌 型 号 、 操 作 系统 、 支 持 制式 等 。 业 务 数据 有 : 流量 、 应 用 等 。 根 据 所 提供 的 海量 
数据 ， 我 们 首先 分 别针 对 单 网 络 进行 研究 ， 待 各 个 网 络 有 了 比较 详细 的 分 析 结果 ， 再 
综合 各 个 网 络 进行 协同 分 析 。 目 前 在 开展 对 TD-SCDMA 网 络 的 分 析 ， 从 质量 、 业 务 、 
营销 三 个 角度 ， 提 出 了 六 种 协同 因子 ， 即 主 服 小 区 电 平 、 载 干 比 、 用 户 数 、 流 量 、 套 
和 餐 、 收 入 。 主 服 小 区 电 平 和 载 干 比 可 用 来 分 析 网 络 的 覆盖 及 干扰 情况 ， 建 立 网 络 服务 
质量 模型 , 为 下 一 代 网 络 规划 建设 提供 基础 用 户 数 和 流量 可 用 来 分 析 网 络 业务 情况 ， 
通过 建立 客户 细 分 模型 、 流 量 分 布 模型 ， 发 现 网 络 现存 的 问题 ， 并 开发 基于 目标 导向 
的 网 络 优化 ， 套 餐 和 收入 可 用 来 建立 资费 分 析 模型 、 收 入 分 析 模型 ， 从 而 开发 基于 效 
益 增长 模型 的 算法 。 

针对 这 六 种 协同 因子 ， 我 们 首先 采用 聚 类 分 析 技 术 进 行 单 维度 聚 禾 ， 然 后 采用 关 
联 分 析 、 信 息 论 等 知识 分 析 各 个 协同 因子 间 的 相关 性 ， 进 而 发 现 针对 某 种 网 络 问题 的 
关键 因子 ， 并 预测 网 络 未 来 可 能 出 现 的 问题 ， 给 出 相应 的 网 络 优化 方案 。 


8.7.1 栅 格 化 呈现 的 基本 原理 


为 了 实现 无 线 网 络 协同 工作 ， 以 及 运营 商 所 关注 的 精细 化 区 域 管理 ， 小 区 栅 格 化 
是 最 佳 的 解决 方案 。 然 而 ， 这 样 带 来 的 后 果 就 是 数据 量 大 大 增加 了 ， 使 得 栅 格 化 过 程 
的 复杂 度 增 加 了 。 那 么 如 何在 满足 精确 度 前 提 下 ， 降 低 小 区 栅 格 化 过 程 的 计算 复杂 度 
是 一 个 重要 的 、 耿 须 解决 的 技术 问题 。 

在 满足 精确 度 前 提 下 ， 降 低 小 区 栅 格 化 过 程 的 计算 复杂 度 ， 缩 减 运算 时 间 ， 栅 格 
化 呈现 的 基本 原理 如 下 : 将 目标 区 域 均匀 划分 成 多 个 栅 格 ， 初 始 化 栅 格 值 ;， 所 述 栅 格 
值 为 栅 格 所 属 小 区 的 标识 ; 根据 每 个 基站 的 发 射 功率 和 路 损 模型 ， 计 算 每 个 基站 的 栅 
格 覆 盖 半 径 ， 从 各 基站 覆盖 半径 中 选择 覆盖 半径 最 小 值 ， 计 算 每 个 基站 覆盖 半径 与 所 
述 覆 盖 半 径 最 小 值 的 比值 ; 根据 每 个 基站 覆盖 半径 与 所 述 覆 盖 半 径 最 小 值 的 比值 ， 确 
定 每 个 基站 所 辖 栅 格 及 栅 格 值 ， 栅 格 化 步骤 如 图 8-86 所 示 。 

为 了 更 加 快速 地 完成 栅 格 化 ， 不 是 采用 每 个 基站 生长 能 力 一 样 ， 而 是 通过 基站 发 
射 功率 和 路 损 模型 获取 基站 生长 能 力 ， 这 样 让 覆盖 半径 能 够 和 基站 生长 圈 数 关联 上 而 
消除 不 同 纲 量 , 可 以 让 多 个 基站 碰撞 的 次 数 减少 而 加 快 栅 格 化 速度 , 降低 计算 复杂 度 。 
与 枚 举 栅 格 化 方法 相 比 ， 在 上 述 栅 格 呈现 的 基本 原理 中 ， 用 枚 举 基 站 代替 枚 举 栅 格 ， 
计算 量 和 计算 复杂 度 大 大 低 于 枚 举 栅 格 化 方法 ， 能 够 在 保证 精度 的 前 提 下 ， 降 低 小 区 
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栅 格 化 过 程 的 计算 复杂 度 ， 缩 减 运算 时 间 ， 提 高 运行 速度 ， 从 而 实现 以 栅 格 为 单位 对 
小 区 网 络 资源 的 精细 化 管理 ， 实 现 资源 的 合理 分 配 ， 提 高 用 户 在 小 区 的 上 网 体验 。 





将 目标 区 域 均匀 划分 成 多 个 栅 格 ， 初 始 化 栅 格 值 ， 所 述 机 | 一 步骤 1 
格 值 为 栅 格 所 属 小 区 的 标识 











¥ 
根据 每 个 基站 的 发 射 功率 和 路 损 模型 ， 计 算 每 个 基站 的 栅 
格 履 盖 半 径 ， 从 各 基站 覆盖 半径 中 选择 覆盖 半径 最 小 值 ， | 全 步骤 2 
计算 每 个 基站 帮 盖 半径 与 所 述 覆 盖 半 径 最 小 值 的 比值 
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图 8-86 小 区 栅 格 化 方法 的 流程 示意 
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的 。 为 确定 每 个 栅 格 的 所 属 基站 ， 提 出 一 种 循环 欠 代 的 寻 站 方式 。 初 始 设 各 栅 格 的 所 
属 基站 号 为 0。 从 箭头 初始 指向 为 第 一 个 要 遍历 的 栅 格 ， 由 于 1 号 基站 处 在 该 栅 格 中 ， 
根据 该 基站 的 方向 角 确 定 该 栅 格 处 在 哪个 扇 区 , 由 图 8-87 可 知 , 该 栅 格 处 在 中 1 G), 
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被 顺序 遍历 ， 并 且 栅 格 所 属 基站 号 确定 ， 栅 格 化 过 程 结 束 。 具 体 的 栅 格 方案 流程 如 下 
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口 获得 每 个 基站 下 GRRE) 的 流量 数据 。 由 于 目前 的 定位 技术 无 法 精准 定位 用 户 的 
位 置 足迹 ， 故 用 户 处 在 哪个 栅 格 是 难以 确定 的 。 这 样 栅 格 内 用 户 的 流量 数据 也 是 难以 
确定 的 。 于 是 ， 我 们 考虑 利用 基站 流量 资源 的 平均 映射 。 

基站 侧 的 流量 数据 包括 上 行 流量 和 下 行 流量 。 由 于 用 户 一 般 使 用 的 下 行 流量 业务 
较 多 ， 故 我 们 仅 针 对 下 行 流 量 进行 分 析 。 提 供 的 下 行 流量 数据 是 对 一 周 内 每 天 每 小 时 
的 记录 ， 我 们 将 该 数据 进行 汇总 计算 出 每 个 基站 下 平均 每 天 的 下 行 流量 值 。 然 后 将 每 
个 基站 下 的 下 行 流量 均值 平均 映射 到 该 基站 下 的 每 个 栅 格 内 ， 由 此 完成 流量 数据 的 栅 
格 映射 。 





8.7.3 ”基于 流量 聚 簇 的 网 络 优化 策略 


本 小 节 主要 讨论 GSM 和 TD-SCDMA 网 络 中 流量 栅 格 聚 类 的 分 析 结 果 。 为 工程 
实现 简单 ， 我 们 选择 范围 应 用 范围 广 、 实 现 容易 的 K-means 聚 类 方法 。 该 方法 需要 
预先 设 定 聚 类 的 分 类 个 数 。 考 虑 到 实际 区 域 的 流量 分 布 情况 ， 我 们 将 分 类 数 设 定 为 3 
类 ， 即 表示 高 流量 、 中 流量 和 低 流量 。 其 中 ， 高 流量 代表 高 价值 用 户 集中 的 区 域 ， 对 
运营 商 的 贡献 率 较 大 。 中 流量 代表 中 等 价值 用 户 集中 的 区 域 ， 对 运营 商 的 贡献 率 处 于 
中 等 地 人 位。 而且， 该 类 用 户 中 ， 有 一 些 用 户 很 可 能 是 具有 升级 为 高 价值 用 户 的 潜力 。 
低 流量 代表 低 价值 用 户 集中 的 区 域 ， 对 运营 商 的 贡献 率 较 小 。 而 且 ， 有 些 用 户 很 可 能 
处 于 即将 离 网 的 状态 ， 运 营 商 需 针对 该 类 用 户 实施 精准 营销 与 推荐 ， 以 尽 最 大 能 力 挽 
留 客户 ， 提 高 用 户 的 在 网 率 和 贡献 率 。 

图 8-88 是 采用 K-means 对 A 区 GSM 流量 栅 格 进行 聚 类 的 结果 。 图 中 右 半 部 
分 区 域 全 部 属于 低 流 量 的 一 类 ， 且 数据 量 较 大 。 据 通过 分 析 具 体 的 覆盖 区 域 类 型 
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口 获得 每 个 基站 下 GRRE) 的 流量 数据 。 由 于 目前 的 定位 技术 无 法 精准 定位 用 户 的 
位 置 足迹 ， 故 用 户 处 在 哪个 栅 格 是 难以 确定 的 。 这 样 栅 格 内 用 户 的 流量 数据 也 是 难以 
确定 的 。 于 是 ， 我 们 考虑 利用 基站 流量 资源 的 平均 映射 。 

基站 侧 的 流量 数据 包括 上 行 流量 和 下 行 流量 。 由 于 用 户 一 般 使 用 的 下 行 流量 业务 
较 多 ， 故 我 们 仅 针 对 下 行 流 量 进行 分 析 。 提 供 的 下 行 流量 数据 是 对 一 周 内 每 天 每 小 时 
的 记录 ， 我 们 将 该 数据 进行 汇总 计算 出 每 个 基站 下 平均 每 天 的 下 行 流量 值 。 然 后 将 每 
个 基站 下 的 下 行 流量 均值 平均 映射 到 该 基站 下 的 每 个 栅 格 内 ， 由 此 完成 流量 数据 的 栅 
格 映射 。 
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中 等 地 人 位。 而且， 该 类 用 户 中 ， 有 一 些 用 户 很 可 能 是 具有 升级 为 高 价值 用 户 的 潜力 。 
低 流量 代表 低 价值 用 户 集中 的 区 域 ， 对 运营 商 的 贡献 率 较 小 。 而 且 ， 有 些 用 户 很 可 能 
处 于 即将 离 网 的 状态 ， 运 营 商 需 针对 该 类 用 户 实施 精准 营销 与 推荐 ， 以 尽 最 大 能 力 挽 
留 客户 ， 提 高 用 户 的 在 网 率 和 贡献 率 。 

图 8-88 是 采用 K-means 对 A 区 GSM 流量 栅 格 进行 聚 类 的 结果 。 图 中 右 半 部 
分 区 域 全 部 属于 低 流 量 的 一 类 ， 且 数据 量 较 大 。 据 通过 分 析 具 体 的 覆盖 区 域 类 型 
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口 获得 每 个 基站 下 GRRE) 的 流量 数据 。 由 于 目前 的 定位 技术 无 法 精准 定位 用 户 的 
位 置 足迹 ， 故 用 户 处 在 哪个 栅 格 是 难以 确定 的 。 这 样 栅 格 内 用 户 的 流量 数据 也 是 难以 
确定 的 。 于 是 ， 我 们 考虑 利用 基站 流量 资源 的 平均 映射 。 

基站 侧 的 流量 数据 包括 上 行 流量 和 下 行 流量 。 由 于 用 户 一 般 使 用 的 下 行 流量 业务 
较 多 ， 故 我 们 仅 针 对 下 行 流 量 进行 分 析 。 提 供 的 下 行 流量 数据 是 对 一 周 内 每 天 每 小 时 
的 记录 ， 我 们 将 该 数据 进行 汇总 计算 出 每 个 基站 下 平均 每 天 的 下 行 流量 值 。 然 后 将 每 
个 基站 下 的 下 行 流量 均值 平均 映射 到 该 基站 下 的 每 个 栅 格 内 ， 由 此 完成 流量 数据 的 栅 
格 映射 。 





8.7.3 ”基于 流量 聚 簇 的 网 络 优化 策略 


本 小 节 主要 讨论 GSM 和 TD-SCDMA 网 络 中 流量 栅 格 聚 类 的 分 析 结 果 。 为 工程 
实现 简单 ， 我 们 选择 范围 应 用 范围 广 、 实 现 容易 的 K-means 聚 类 方法 。 该 方法 需要 
预先 设 定 聚 类 的 分 类 个 数 。 考 虑 到 实际 区 域 的 流量 分 布 情况 ， 我 们 将 分 类 数 设 定 为 3 
类 ， 即 表示 高 流量 、 中 流量 和 低 流量 。 其 中 ， 高 流量 代表 高 价值 用 户 集中 的 区 域 ， 对 
运营 商 的 贡献 率 较 大 。 中 流量 代表 中 等 价值 用 户 集中 的 区 域 ， 对 运营 商 的 贡献 率 处 于 
中 等 地 人 位。 而且， 该 类 用 户 中 ， 有 一 些 用 户 很 可 能 是 具有 升级 为 高 价值 用 户 的 潜力 。 
低 流量 代表 低 价值 用 户 集中 的 区 域 ， 对 运营 商 的 贡献 率 较 小 。 而 且 ， 有 些 用 户 很 可 能 
处 于 即将 离 网 的 状态 ， 运 营 商 需 针对 该 类 用 户 实施 精准 营销 与 推荐 ， 以 尽 最 大 能 力 挽 
留 客户 ， 提 高 用 户 的 在 网 率 和 贡献 率 。 

图 8-88 是 采用 K-means 对 A 区 GSM 流量 栅 格 进行 聚 类 的 结果 。 图 中 右 半 部 
分 区 域 全 部 属于 低 流 量 的 一 类 ， 且 数据 量 较 大 。 据 通过 分 析 具 体 的 覆盖 区 域 类 型 










































































表示 高 流量 
国 表 示 中 流量 
BAKKE 


图 8-88 A 区 GSM fit He RAR 


第 8 章 数据 挖掘 在 运营 商 智慧 运营 中 的 应 用 


了 解 到 该 区 域 属于 A 区 的 郊区 部 分 。 为 降低 该 部 分 对 整个 聚 类 效果 的 影响 ， 我 们 
只 考虑 A 区 城区 的 部 分 ， 对 该 区 域 的 流量 栅 格 数据 进行 重新 聚 类 ， 结 果 如 图 8-89 
所 示 。 

如 图 8-89 所 示 ，GSM 网 络 中 ， 低 流量 区 域 仍 占据 整个 区 域 的 一 半 以 上 。 据 分 析 ， 
高 流量 聚 类 中 心 为 1290MB; 中 流量 聚 类 中 心 为 398MB; 而 低 流 量 聚 类 中 心 为 8.54MB。 
三 个 流量 簇 的 聚 类 中 心 相差 较 大 ， 说 明 获 得 了 很 好 的 分 类 。 图 8-90 显示 了 各 流量 栅 
格 簇 的 占 比 。 其 中 ， 高 流量 栅 格 占 栅 格 总 量 的 4%; 中 流量 栅 格 占 栅 格 总 量 的 22%; 
而 低 流量 栅 格 的 占 比 达到 74%。 进 一 步 通 过 栅 格 对 应 的 基站 位 置 分 析 栅 格 所 在 的 区 
域 类 型 ， 可 发 现 ， 高 流量 栅 格 和 中 流量 栅 格 主要 集中 在 商业 中 心 、 部 分 高 校 和 企 事业 
单位 ， 这 些 区 域 人 口 密度 大 ， 高 价值 客户 比较 集中 。 
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图 8-89 A 区 密集 区 域 的 GSM 流量 栅 格 聚 类 结果 
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8-90 GSM 流量 簇 的 占 比 


而 低 流量 栅 格 集中 在 城区 道路 、 高 速 公 路 和 风景 区 ， 该 区 域 一 般 人 口 分 布 较 
少 。 另 外 ， 人 口 密度 较 大 的 区 域 也 存在 较 多 低 流 量 栅 格 。 这 是 因为 ，GSM 网 络 中 
产生 的 数据 业务 量 并 不 是 很 大 。 由 于 GSM 是 2G 网 络 ， 主 要 支持 的 业务 是 话音 业 
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4, 数据 业务 是 基于 增强 技术 GPRS Al EDGE 提供 的 , 不 过 数据 速率 并 不 是 很 高 ， 
用 户 体验 也 不 是 很 好 。 因 此 ，GSM 网 络 中 出 现 低 流 量 占 比如 此 高 的 状况 也 是 可 以 
理解 的 。 

针对 2G 网 络 使 用 率 较 高 的 人 口 密集 区 域 ， 应 加 强 3G 网 络 甚至 4G 网 络 的 部 署 ， 
并 对 该 区 域 的 高 价值 用 户 推荐 支持 3G 甚至 4G 网 络 制 式 的 智能 终端 ， 以 此 提高 用 户 
的 数据 体验 ， 并 提高 整体 网 络 的 流量 使 用 率 。 

图 8-91 是 利用 K-means 对 TD-SCDMA 网 络 中 的 流量 栅 格 进行 聚 类 的 结果 。 与 
GSM 网 络 的 聚 类 情况 类 似 ，A 区 的 郊区 部 分 全 部 属于 低 流 量 类 别 。 同 样 的 ， 为 避免 
影响 整体 聚 类 的 效果 ， 对 TD-SCDMA 网 络 中 流量 栅 格 的 聚 类 也 只 考虑 了 城区 区 域 ， 
聚 类 结果 如 图 8-92 所 示 。 另 外 ， 可 明显 地 看 到 A 区 的 城区 区 域 有 一 部 分 栅 格 是 不 连 
续 的 ， 出 现 了 一 些 空白 区 域 (椭圆 标 注 ) 。 这 并 不 表示 该 区 域 没 有 网 络 覆盖 ， 而 是 因 
为 该 区 域 的 TD 基站 位 置 没有 采集 到 。 
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图 8-91 A 区 TD 流量 栅 格 聚 类 结果 


图 8-92 给 出 了 A 区 城区 部 分 的 TD 流量 栅 格 的 聚 类 结果 。 由 图 可 看 出 ， 聚 类 效 
果 似 乎 与 GSM 网 络 类 似 ， 低 流量 栅 格 占据 整个 栅 格 总 量 的 一 半 以 上 。 而 且 ， 高 流量 
的 聚 类 中 心 为 1470MB; 中 流量 的 聚 类 中 心 为 355MB; 低 流 量 的 聚 类 中 心 为 5.75MB。 
与 GSM 网 络 的 流量 聚 类 相 比较 , 可 看 出 TD 网 络 中 ,高 流量 的 聚 类 中 心 比 GSM 中 的 高 ， 
这 是 很 显然 的 ， 因 为 TD 网 络 的 数据 速率 得 到 了 很 大 的 提升 ， 用 户 能 够 获得 很 好 的 服 
务 体验 ， 因 此 数据 业务 的 使 用 率 也 会 相对 高 一 些 。 而 中 流量 和 低 流 量 的 聚 类 中 心 均 比 
GSM 的 低 ， 这 说 明 TD 网 络 中 处 于 中 流量 和 低 流量 区 域 的 用 户 对 数据 流量 的 依赖 性 
不 是 很 大 ， 运 营 商 应 加 强 对 此 类 区 域 的 3G 网 络 建设 与 优化 ， 同 时 为 用 户 精准 地 推荐 
具有 吸引 力 的 套餐 业务 ， 以 此 来 提高 用 户 的 数据 业务 使 用 频率 和 在 网 体验 。 
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图 8-92 A 区 密集 区 域 的 TD 流量 栅 格 聚 类 结果 





























图 8-93 还 统计 了 TD 网 络 中 各 流量 栅 格 筷 占 栅 格 总 量 的 比例 。 由 图 可 知 ， 高 流 
量 栅 格 占 比 2%6;， 中 流量 栅 格 占 比 28%; 而 低 流 量 栅 格 占 比 70%。 高 流量 栅 格 主要 集 
中 在 商业 中 心 、 企 事业 单位 、 部 分 高 校 和 医院 。 此 外 ， 与 GSM 网 络 相 比 ，TD 中 的 
高 流量 栅 格 反而 较 少 ， 这 是 因为 TD 基站 未 给 出 的 区 域 正 好 是 人 口 流动 较 大 的 密集 区 
域 ， 对 聚 类 的 结果 产生 了 一 些 影响 。 中 流量 栅 格 有 部 分 集中 在 商业 中 心 、 高 校 等 人 口 
密集 区 ， 也 有 部 分 集中 在 风景 区 、 居 民 区 等 区 域 。 与 GSM 网 络 相 比 ，TD 中 的 中 流 
量 栅 格 占 比 要 高 一 些 。 由 于 TD 网 络 主要 用 于 提升 用 户 的 数据 业务 体验 ， 用 户 在 TD 
中 的 数据 流量 使 用 率 正常 情况 会 比 GSM 网 络 的 高 。 低 流量 栅 格 有 一 些 集中 在 道路 、 
河流 和 居民 区 ， 也 有 一 些 集中 在 商业 中 心 等 人 口 密集 的 区 域 ， 针 对 该 区 域 的 用 户 运 营 
商 应 提高 TD 网 络 的 覆盖 率 ， 为 用 户 有 针对 性 地 推荐 智能 终端 或 套餐 业务 ， 从 而 提高 
用 户 对 网 络 的 依赖 。 
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随 着 定位 技术 在 军事 和 民用 技术 中 的 广泛 应 用 ， 移 动 定 位 技术 越 来 越 受到 人 们 的 
广泛 关注 。 目 前 ， 基 于 用 户 位 置 的 移动 定位 业务 (Location-Based Service, LBS) 已 
经 受到 世人 的 瞩目 ， 全 球 各 大 移动 运营 商 也 都 正在 部 署 这 项 极 具 潜 力 的 增值 业务 。 从 
市 场 来 说 ， 近 年 来 随 着 移动 互联 网 及 智能 终端 的 迅猛 发 展 和 广泛 普及 ， 用 户 对 于 信息 
的 及 时 性 和 就 地 形 的 需求 越发 强烈 ， 这 就 给 基于 定位 的 服务 和 应 用 提供 了 非常 广阔 的 
市 场 空间 。 

伴随 着 移动 互联 网 领域 的 快速 发 展 ， 基 于 位 置 服务 的 手机 应 用 也 进一步 兴起 。 
4G 时 代 的 到 来 为 移动 增值 业务 提供 了 广阔 的 发 展 空间 , 而 移动 位 置 服务 以 其 移动 性 、 
实用 性 、 随 时 性 和 个 性 化 的 特点 ， 成 了 上 网 增值 产生 之 后 ， 手 机 移动 增值 业务 非常 具 
有 潜力 的 发 展 方向 。 


8.8.1 传统 室内 定位 方法 


目前 ， 世 界 上 正在 运行 的 卫星 导航 定位 系统 主要 是 美国 的 全 球 定位 系统 (Global 
Positioning System, GPS) ， 但 GPS 这 种 定位 方法 是 在 室外 使 用 得 较 多 的 定位 方法 ， 
它 不 适用 于 室内 。 针 对 GPS 的 室内 定位 精确 度 偏 低 、 成 本 较 高 等 缺点 ， 具 备 低 成 本 、 
较 高 定位 精度 的 诸多 室内 定位 技术 便 应 运 而 生 ， 并 在 诸多 领域 正 越 来 越发 挥 着 重要 的 
作用 。 例 如 : 煤矿 企业 要 实现 对 井下 作业 人 员 的 实时 跟踪 与 定位 、 方 便 企 业 对 员工 的 
管理 与 调度 ， 要 用 到 室内 定位 技术 ， 营 救 被 困 人 员 ， 室 内 定位 技术 可 以 提供 被 困 人 员 
的 位 置信 息 ， 为 营救 节省 大 量 的 时 间 ; 在 超市 等 购物 中 心 ， 室 内 定位 技术 可 以 实现 对 
商品 定位 、 消 费 者 定位 、 广 告发 布 、 地 图 导航 等 功能 。 所 以 若 能 实现 低 成 本 且 高 精度 
的 室内 定位 系统 ， 将 具有 非常 重要 的 现实 意义 。 

所 谓 室内 定位 技术 ， 是 指 在 室内 环境 下 确定 某 一 时 刻 接收 终端 在 某 种 参考 系 中 的 
位 置 。 在 室内 环境 下 ， 大 多 采用 无 线 局 域 网 来 估计 接收 终端 的 位 置 。 一 般 典 型 的 无 线 
局 域 网 架构 中 的 接 入 点 (Access Point, AP) 类 似 于 无 线 通 信 网 络 中 的 基站 ， 大 部 分 
无 线 局 域 网 都 使 用 RF (Radio Frequency) 射频 信号 来 进行 通信 ， 因 为 无 线 电波 可 穿 
越 大 部 分 的 室内 墙壁 或 其 他 障碍 物 ， 提 供 更 大 的 覆盖 范围 。 常 见 的 室内 定位 方法 有 : 
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(1) Zig Bee 定位 技术 。Zig Bee 是 一 种 新 兴 的 短 距离 、 低 速率 、 低 功 耗 、 低 成 
本 及 网 络 扩展 性 强 的 无 线 网 络 技术 ， 它 的 信号 传播 距离 介 于 射频 识别 和 蓝牙 之 间 ， 工 
作 频 段 有 三 个 一 一 2.4GHz (SM 国际 免费 频段 ) 和 858/91MHz， 除 了 可 以 应 用 于 室 
内 定位 ， 还 可 以 应 用 于 智能 家 居 、 环 境 监测 等 诸多 领域 。 它 有 自己 的 无 线 电 标准 IEEE 
802.15.4， 定 位 主要 是 通过 在 数 千 个 节点 之 间 进 行 相互 协调 通信 实现 的 。 这 些 节点 以 接 
力 的 方式 通过 无 线 电 信号 将 数据 从 一 个 节点 传 到 另 一 个 节点 , 通信 效率 非常 高 ， 同 时 ， 
这 些 节点 只 需要 很 小 的 功率 。 低 功 耗 与 低 成 本 是 Zig Bee 定位 技术 最 显著 的 优点 。 

(2) 室内 GPS 定位 技术 。 当 GPS 接收 机 在 室内 工作 时 ， 卫 星 发 送 的 GPS 信号 
由 于 受到 建筑 物 的 遮蔽 会 大 大 衰减 ， 而 且 不 可 能 像 室 外 一 样 直 接 从 卫星 广播 中 提取 时 
间 信 息 与 导航 数据 ， 因 此 ， 定 位 精度 会 很 低 。 但 是 ， 延 长 在 每 个 码 延 迟 上 的 停留 时 间 
可 以 有 效 提高 室内 信号 灵敏 度 ， 利 用 这 个 特性 的 室内 GPS 定位 技术 则 可 以 解决 上 述 
GPS 定位 的 缺陷 。 室 内 GPS 定位 技术 利用 数 十 个 相关 器 并 行 地 搜索 可 能 的 延迟 码 提 
高 卫星 信号 质量 以 提高 定位 精度 ， 同 时 也 可 以 提高 定位 速度 。 

(3) 红外 线 室 内 定位 技术 。 通 过 安装 在 室内 的 光学 传感器 接收 经 过 红外 线 标识 
调制 和 发 射 的 红外 线 进 行 定 位 是 红外 线 室 内 定位 技术 的 基本 思想 。 虽 然 红外 线 室内 定 
位 技术 在 理论 上 具有 相对 较 高 的 定位 精度 ， 但 红外 线 仅 能 视 距 传播 、 易 被 灯光 或 者 荧 
光 灯 干扰 且 传输 距离 较 短 则 是 这 项 技术 最 为 明显 的 缺点 。 受 这 些 缺 点 的 制约 ， 它 的 实 
际 应 用 前 景 并 不 乐观 ， 而 且 这 项 技术 的 应 用 需要 在 每 个 走廊 、 房 间 安 装 接收 天 线 ， 造 
价 也 较 高 。 因 此 ， 红 外 线 室内 定位 技术 在 具体 应 用 上 有 非常 大 的 局 限 性 。 

(4) 超声 波 定位 技术 。 超 声波 定位 采用 基于 时 间 到 达 (Time of Arrival, TOA) 
进行 测 距 ， 然 后 选择 合适 的 定位 算法 ， 利 用 测 得 的 一 组 距离 值 来 确定 物体 的 位 置 。 超 
声波 定位 系统 由 若干 个 参考 节点 和 定位 节点 组 成 ， 定 位 节点 向 位 置 固定 的 参考 节点 发 
射频 率 相同 的 超声 波 信 号 ， 参 考 节点 在 接收 到 超声 波 信 号 后 向 定位 时 节点 做 出 回应 ， 
由 此 得 到 定位 节点 与 各 个 参考 节点 之 间 的 距离 。 当 得 到 三 个 或 三 个 以 上 不 同 参考 节点 
与 定位 节点 之 间 的 距离 测量 值 时 ， 就 可 以 利用 这 组 距离 测量 值 根据 相关 定位 算法 确定 
出 定位 节点 的 位 置 。 

(5) 蓝牙 室内 定位 技术 。 蓝 牙 是 一 种 短 距 离 、 低 功 耗 的 无 线 传输 技术 ， 基 于 它 
的 室内 定位 技术 是 基于 接收 信号 强度 指示 测 距 的 。 通 过 在 室内 安装 适当 数量 的 蓝牙 局 
域 网 接 入 点 ， 再 把 基础 网 络 的 链接 模式 配置 成 基于 多 用 户 、 主 设备 为 蓝牙 局 域 网 接 入 
点 ， 就 可 以 计算 出 定位 节点 的 位 置 坐标 。 目 前 ， 蓝 牙 定 位 技术 受到 蓝牙 信号 传播 距离 
短 的 制约 主要 应 用 于 小 范围 定位 。 

(6) 射频 识别 技术 。 射 频 识 别 技术 进行 定位 是 利用 射频 方式 进行 非 接触 式 双 向 
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通信 交换 数据 达到 的 。 此 技术 成 本 低 ， 作 用 距离 一 般 为 几 十 米 ， 可 以 在 非常 短 的 时 间 
内 得 到 厘米 级 的 定位 精度 信息 。 目 前 ， 理 论 传播 模型 的 建立 、 用 户 的 安全 隐私 和 国际 
标准 化 等 问题 是 射频 识别 研究 的 热点 和 难点 。 昌 然 射频 标识 技术 有 其 自身 的 优点 ， 但 
相 比 于 蓝牙 定位 技术 ， 它 不 容易 被 整合 到 其 他 系统 中 。 

(7)Wi-Fi 定 位 技术 基于 网 络 节点 能 够 实现 自身 定位 的 前 提 , 无 线 局 域 网 (WLAN) 
是 一 种 全 新 的 定位 技术 ， 它 可 以 在 诸多 的 应 用 领域 内 实现 复杂 的 大 范围 监测 、 定 位 和 
跟踪 任务 。 现 在 比较 流行 的 Wi-Fi 定位 是 基于 IEEE 802.11 标准 、 采 用 经 验 测试 和 信 
号 传播 模型 相 结 合 的 一 种 定位 解决 方案 。 该 定位 系统 需要 的 基站 数量 比较 少 ， 比 较 容 
易 安装 ， 具 有 相同 的 底层 无 线 网 路 结构 ， 系 统 定位 精度 较 高 。 但 是 ， 如 果 定 位 的 测算 
不 是 依赖 于 合成 的 信号 强度 图 ， 而 是 仅仅 依赖 于 哪个 Wi-Fi 的 接 入 点 最 近 ， 那 么 在 楼 
层 定位 上 很 容易 出 错 。 目 前 ， 受 到 Wi-Fi 收发 器 的 覆盖 范围 一 般 只 能 达到 半径 90 m 
以 内 的 区 域 这 一 缺点 的 制约 ， 该 系统 主要 应 用 于 小 范围 的 室内 定位 。 并 且 ， 无 论 是 应 
用 于 室内 定位 还 是 室外 定位 ， 该 系统 对 干扰 信号 的 反应 都 很 灵敏 ， 从 而 影响 其 定位 精 
度 ， 定 位 节点 的 能 耗 也 较 高 。 

除了 以 上 提 及 的 定位 技术 ， 还 有 基于 光 跟 踪 定 位 、 基 于 图 像 分 析 、 电 脑 视 觉 、 信 
标定 位 等 室内 定位 技术 。 





88.2 ”基于 Wi-Fi 信 号 的 指纹 定位 算法 


基于 指纹 的 定位 流程 可 以 分 为 两 个 阶段 : 离线 训练 阶段 和 在 线 定位 阶段 。 
(1) 离线 训练 阶段 : 先 将 待定 位 区 域 栅 格 化 为 了 "7 个 正方 形 ， 如 图 8-94 所 示 。 

































































图 8-94 ”将 待定 位 场景 栅 格 化 


在 每 个 位 置 G, j 内 分 别 采集 所 有 Wi-Fi 信号 接 入 点 在 该 位 置 的 信号 强度 ， 记 为 
4 G, j) 


第 8 章 数据 挖掘 在 运营 商 智慧 运营 中 的 应 用 





A 6 n= (Ge, 9,279 Ge, 9, 9 9 SE pa) (8-3 ) 
6 Gn ,wn 为 第 n 个 AP 在 G, D 位 置 的 信号 强度 。 
将 Wi-Fi 型 号 的 时 变性 纳入 考虑 ， 取 6 6 p,n, 在 时 间 维 度 的 均值 为 4 a p,n W 
该 待定 位 区 域 的 离线 指纹 库 (Radio Map) TRENA R 


Ain 人 Hann U Haw 
R= Ha, ,1 it Hapa U Hü, D, N (8-4) 
Han HDs CU Hany, 


(2) 在 线 定位 阶段 : 待定 位 的 移动 端 设备 采集 所 有 Wi-Fi 的 信号 强度 ， 形 成 该 
位 置 上 的 指纹 向 量 并 上 传 到 服务 器 端 。 
D= (pis s Pus 1s Pw) T (8-5) 
服务 器 端 通过 指纹 相似 度 匹配 算法 ， 将 上 报 的 指纹 向 量 与 数据 库 中 每 一 条 指纹 的 
记录 相 匹配 ， 最 终 确定 待定 位 设备 的 估计 位 置 ， 并 回 传 给 移动 设备 。 指 纹 相似 度 匹配 
相关 算法 包括 确定 性 算法 、 概 率 算 法 和 基于 人 工 神经 网 络 的 算法 等 几 种 。 


883 ”基于 数据 挖掘 算法 的 改进 定位 方法 


基于 指纹 的 定位 过 程 可 以 看 成 一 个 对 无 线 信号 特征 进行 分 类 的 过 程 : 离线 阶段 就 
是 训练 一 个 分 类 器 模型 ， 将 采集 的 指纹 信息 作为 分 类 器 的 输入 ， 参 考点 的 位 置 作为 分 
类 器 的 输出 ， 从 而 训练 出 符合 目标 无 线 环境 的 分 类 器 模型 ， 在 线 阶段 就 是 应 用 分 类 器 
进行 定位 , 将 新 采样 的 指纹 信息 输入 训练 好 的 分 类 器 , 对 应 的 输出 即 为 参考 点 的 坐标 ， 
并 以 此 作为 待定 位 设备 的 估计 坐标 。 

在 实际 定位 中 ， 指 纹 数据 库 是 十 分 庞大 的 ， 在 线 定 位 阶段 的 位 置 匹配 计算 量 也 是 
十 分 巨大 的 。 因 此 ， 如 果 不 解 决 这 个 问题 ， 室 内 定位 的 实时 性 和 有 效 性 将 面临 极 大 挑 
战 ， 无 法 达到 用 户 秒 级 甚至 更 高 实时 性 的 要 求 。 如 此 庞大 的 一 个 数据 库 ， 可 以 将 之 称 
为 “大 数据 ”。 所 以 我 们 考虑 将 处 理 大 数据 十 分 适用 的 数据 挖掘 算法 工具 应 用 到 指纹 
定位 算法 中 ， 以 解决 指纹 数据 库 过 大 导致 的 计算 量 庞大 降低 定位 时 效 性 的 问题 。 

前 人 在 将 数据 挖掘 方法 应 用 到 室内 定位 算法 的 领域 中 ， 已 经 做 了 很 多 实验 ， 如 : 
利用 K-means 对 AP 进行 聚 类 以 分 析 AP 的 空间 分 布 特性 ， 再 结合 多 次 迭代 定位 给 待 
定位 区 域 的 每 一 个 栅 格 进行 打分 〈Grid Scoring) 的 KS 算法 ; 针对 不 同 AP 的 物理 属 
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性 不 同 而 进行 的 AP 打分 算法 (AS) ， 等 等 。 
8.8.3.1 基于 主 成 分 分 析 和 聚 类 的 定位 算法 


此 方法 是 将 主 成 分 分 析 方法 应 用 到 现 有 的 基于 KS 和 AS 的 室内 定位 算法 模型 。 

在 离线 阶段 ， 首 先 ， 对 每 一 个 AP 进行 打分 ， 打 分 的 标准 就 是 其 对 于 定位 精确 程 
度 的 影响 ， 对 于 定位 精度 提升 越 高 的 对 应 AP 得 分 越 高 ， 对 于 定位 精度 没有 提升 或 是 
提升 小 的 AP 得 分 低 。 其 次 , 通过 主 成 分 分 析 的 方法 在 打 过 分 的 所 有 AP 中 , 通过 旋转 ， 
得 到 几 个 少数 对 于 定位 精度 影响 最 大 的 “ 主 AP” (Balanced Principal Component, 
BPC) 。 在 现 阶 段 ， 将 得 到 的 BPC 算法 作为 传统 KS 方法 的 AP 进行 定位 。 

具体 来 说 ， 该 算法 分 以 下 几 步 进行 : 

第 一 步 ， 栅 格 化 待定 位 区 域 并 进行 离线 指纹 库 的 数据 采集 及 指纹 库 的 构建 。 将 
待定 位 区 域 划 分 为 1， J 个 栅 格 ， 并 逐 格 采集 所 有 AP 在 该 格 的 信号 强度 (Received 
Signal Strength, RSS) 。 

第 二 步 ， 对 于 待定 位 区 域内 所 有 的 AP 进行 打分 。 具 体 的 打分 方法 为 生成 一 个 打 
分 向 量 O= O, 0,, 天 ，gv)， 用 于 记录 待定 位 区 域内 的 共 XN 个 AP 的 分 数 。 其 意义 为 ， 
EBENA AP 所 参与 的 定位 结果 好 ， 那 么 就 给 它 配 一 个 较 高 的 影响 因子 ， 也 就 是 “高 
分 ”; 若 其 参与 的 定位 结果 与 实际 定位 点 差别 较 大 ， 就 给 该 AP 一 个 较 低 的 影响 因子 
以 降低 其 在 现 阶段 定位 的 影响 程度 ， 也 就 是 “ 低 分 ”。 

在 此 阶段 ， 通 过 不 同 AP 的 影响 因子 ， 离 线 指纹 库 尺 可 以 更 新 为 R' =R- 0' 


On 0 - 0 
‘AP, 
P X 
Se c a «4 (8-6) 
0 o xp, 


其 中 bu 表征 的 就 是 第 i 个 AP 的 影响 因子 。 

第 三 步 ， 主 成 分 分 析 。 通 过 主 成 分 分 析 的 方法 ， 对 个 AP 进行 旋转 得 到 新 的 
M (M<N) 个 AP， 用 很 少 的 新 的 “ 主 AP” 表 征 绝 大 部 分 原 有 AP 所 代表 的 信息 。 新 
得 到 的 AP 表示 为 U= (h, s, Uy) o 

第 四 步 ， 用 新 得 到 的 指纹 库 PR © U 作为 在 线 阶段 的 指纹 库 进 行 定 位 。 

仿真 结果 显示 经 过 PCA 之 后 的 本 算法 的 平均 定位 误差 小 于 传统 的 KS+AS 算法 ， 
仿真 结果 如 图 8-95 所 示 。 
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以 降低 其 在 现 阶段 定位 的 影响 程度 ， 也 就 是 “ 低 分 ”。 

在 此 阶段 ， 通 过 不 同 AP 的 影响 因子 ， 离 线 指纹 库 尺 可 以 更 新 为 R' =R- 0' 
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其 中 bu 表征 的 就 是 第 i 个 AP 的 影响 因子 。 

第 三 步 ， 主 成 分 分 析 。 通 过 主 成 分 分 析 的 方法 ， 对 个 AP 进行 旋转 得 到 新 的 
M (M<N) 个 AP， 用 很 少 的 新 的 “ 主 AP” 表 征 绝 大 部 分 原 有 AP 所 代表 的 信息 。 新 
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第 四 步 ， 用 新 得 到 的 指纹 库 PR © U 作为 在 线 阶段 的 指纹 库 进 行 定 位 。 

仿真 结果 显示 经 过 PCA 之 后 的 本 算法 的 平均 定位 误差 小 于 传统 的 KS+AS 算法 ， 
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图 8-95 ”不同 迭代 次 数 下 KS+AS 和 KS+PCA 方法 的 平均 定位 误差 


8.8.3.2 ”基于 四 叉 树 的 定位 算法 


作为 最 广泛 使 用 的 一 种 分 类 算法 ， 决 策 树 有 着 易于 理解 、 算 法 所 得 模型 图 形 化 易 
于 展示 、 可 调 优 等 优点 ， 在 本 书 第 4 章 也 有 详细 讲解 ， 本 节 着 重 讲解 如 何 利用 多 叉 树 
来 优化 室内 定位 算法 。 

传统 定位 方法 的 离线 阶段 是 将 待定 位 区 域 分 成 很 多 个 小 栅 格 ， 逐 格 采集 指纹 数据 
并 构建 指纹 数据 库 。 这 种 方法 的 次 端 在 于 ， 如 果 待 定位 区 域 过 大 或 者 区 域内 AP 数量 
过 多 ， 所 生成 的 离线 指纹 库 将 是 巨大 的 ， 那 么 在 线 阶段 的 匹配 算法 的 计算 量 将 是 十 分 
庞大 的 ， 会 影响 定位 准确 的 实时 性 。 

本 方法 的 核心 思想 是 : 在 离线 阶段 首次 将 待定 位 区 域 分 成 四 个 区 域 ， 如 图 8-96 
所 示 。 














图 8-96 将 待定 位 区 与 划分 为 四 块 


进行 一 次 定位 后 将 目标 定位 在 某 个 大 块 内 ， 比 如 区 域 2。 下 一 步 只 需 将 9 进行 
四 分 ， 并 再 次 进行 定位 ， 将 目标 定位 到 更 小 的 区 域内 。 以 此 方法 不 断 迭 代 ， 直 到 定位 
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精度 满足 需要 或 是 栅 格 小 于 最 小 栅 格 单位 ， 整 体 思路 如 图 8-97 所 示 。 
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本 方法 的 优点 十 分 明确 ， 极 大 地 减少 了 在 线 阶段 的 计算 量 ， 每 一 次 迭代 只 进行 4 
次 待定 位 点 与 指纹 库 中 的 点 的 匹配 。 在 定位 区 域 十 分 庞大 时 ， 可 明显 地 降低 每 次 定位 
所 需 的 时 间 以 提高 定位 的 效率 。 其 思路 主要 利用 的 是 多 又 决策 树 的 思想 ， 将 定位 问题 
逐 层 地 通过 逐步 将 目标 定位 在 更 小 的 待定 位 区 域内 ， 每 一 次 迭代 即 为 决策 树 的 一 层 ， 
如 图 8-98 所 示 。 
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图 8-98 ”四 又 树 结构 示意 
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数据 挖掘 是 一 门 交 叉 性 学 科 ， 涉 及 人 工 智 能 、 机 器 学 习 、 模 式 识别 、 归 纳 推 理 、 
统计 学 、 数 据 库 、 高 性 能 计算 、 数 据 可 视 化 等 多 种 技术 。 随 着 各 行业 对 大 规模 数据 处 
理 和 深度 分 析 需 求 的 快速 增长 ， 数 据 挖 掘 已 成 为 一 个 引起 学 术 界 和 工业 界 重 视 、 具 有 
广泛 应 用 需求 的 热门 研究 领域 。 

近 几 年 来 大 数据 非常 火爆 ， 但 总 的 来 说 集成 互联 网 思维 大 数据 的 革命 才刚 刚 开 
始 。 现 在 新 数据 的 年 增长 为 60% 左右 ， 逐 渐 从 基础 架构 、App 向 数据 的 简化 迈进 。 

对 于 面向 大 数据 的 数据 挖掘 与 机 器 学 习 发 展 趋势 ， 在 技术 方面 ， 科 学 家 们 从 现 有 
层面 提出 各 种 新 兴 技术 。 比 如 : 从 数据 处 理 角度 ， 有 分 布 式 处 理 方法 Map Reduce， 
较 著 名 的 应 用 工具 有 Hadoop 和 DISCO。 从 数据 库 角 度 出 发 ， 在 信息 检索 、 流 媒体 
存储 等 方面 有 NOSQL 开发 工具 ， 以 及 对 应 超大 规模 和 高 并 发 的 SNS 类 型 的 WEB2.0 
纯 动态 网 站 而 使 用 的 非 关 系数 据 库 高 速 发 展 、 如 MongoDB、CouchDB。 在 如 何 提取 
有 价值 的 信息 ， 处 理 底层 的 结构 化 技术 支持 外 ， 数 据 挖掘 算法 、 机 器 学 习 算法 都 是 必 
不 可 少 的 。 

在 信息 安全 方面 ,大 数据 挖掘 将 成 为 信息 安全 发 展 的 契机 。 如 今 ， 数据 无 处 不 在 ， 
降低 了 其 自身 信息 的 安全 性 。 例 如 ， 存 储 于 云端 的 大 量 数据 ， 至 今 还 没有 形成 有 效 的 
集中 管理 , 而 单独 地 管理 用 户 信息 则 无 法 一 一 分 辩 其 是 否 合法 , 这 就 提高 了 非法 入 侵 、 
算 改 数据 信息 的 危险 性 。 对 此 ， 各 种 为 信息 安全 服务 的 技术 和 产品 成 为 大 数据 研究 中 
心 的 方向 和 信息 安全 领域 的 首要 问题 。 因 此 ， 如 何 保 证 数据 产业 链 的 安全 对 信息 安全 
发 展 具 有 重要 的 意义 。 

在 企业 经 营 管理 和 产业 服务 方面 ， 大 数据 挖掘 将 成 为 企业 及 服务 机 构 等 诸多 行业 
的 转折 点 。 伴 随 着 大 数据 挖掘 技术 在 企业 管理 中 带 来 经 济 效益 的 同时 ， 也 带 来 了 管理 
模式 的 巨大 改变 ， 企 业 必 须 拥有 三 类 人 才 : 管理 人 才 、 分 析 人 才 及 技术 型 人 才 ， 紧 跟 
时 代 脉 搏 ， 从 大 数据 中 获得 关键 信息 ， 及 时 调整 企业 产业 规划 ， 才 能 在 时 代 变 革 中 保 
持 自身 利益 ， 求 得 生存 。 

在 教育 教学 方面 ， 面 授 式 教学 ， 尤 其 在 大 学 ， 已 经 凸显 落后 ， 一 所 具有 强大 数据 
挖掘 能 力 的 远程 教学 平台 ， 信 息 化 教学 的 数字 校园 ， 能 为 师 生 提供 更 具 个 性 化 的 数据 
支撑 和 服务 。 在 校园 启用 “大 数据 ”， 通 过 便捷 的 、 多 元 的 采集 方式 ， 建 立 基础 数据 
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平台 和 整合 教学 资源 ， 提 供 标准 数据 接口 ， 统 一 采集 、 认 证 ， 集 中 存储 ， 开 放 计 算 ， 
最 终 消除 “信息 孤岛 ”。 

在 商业 价值 方面 ， 大 数据 挖掘 将 成 为 创造 价值 的 核心 。 历 经 短 短 二 十 年 的 发 展 ， 
大 数据 挖掘 已 引领 全 球 进入 创新 和 竞争 的 新 模式 。 例 如 ， 欧 洲 国家 政府 运用 大 数据 而 
分 别 节省 1000 亿 欧 元 ， 美 国医 疗 业 则 节省 了 3000 亿美 元 。 此 外 ， 大 数据 中 潜在 个 人 
信息 价值 不 可 估量 。 世 界 各 国政 府 都 加 大 了 对 大 数据 发 展 的 扶持 力度 ， 特 别 在 发 达 国 
家 甚至 上 升 到 国家 战略 的 高 度 。 

那么 未 来 5-10 年 中 ， 数 据 挖掘 与 机 器 学 习 将 朝 什么 方向 发 展 ? 以 下 是 行业 内 一 
些 专家 的 访谈 实录 : 

Ilya Sutskever，OpenAI 研究 总 监 : 我 们 应 该 会 看 到 更 为 深层 的 模型 ， 与 如 今 的 
模型 相 比 ， 这 些 模型 可 以 从 更 少 的 训练 样 例 中 学 习 ， 在 非 监 督学 习 方 面 也 会 取得 实质 
性 进展 。 我 们 应 该 会 看 到 更 精准 有 用 的 语音 和 视觉 识别 系统 。 

Sven Behnke， 波 恩 大 学 全 职 教 授 、 自 主 智能 系统 小 组 负责 人 : 我 期 望 深度 学 习 
能 够 越 来 越 多 地 被 用 于 多 模 (multi-modal) 问题 上 ， 在 数据 上 更 结构 化 。 这 将 为 深度 
学 习 开 创新 的 应 用 领域 ， 比 如 机 器 人 技术 、 数 据 挖掘 和 知识 发 现 。 

Christian Szegedy， 谷 歌 高 级 研究 员 : 目前 深度 学 习 算法 和 神经 网 络 的 性 能 与 理 
论 性 能 相去 甚 远 。 如 今 ， 我 们 可 以 用 1/10 到 1/5 的 成 本 ， 以 及 1/15 的 参数 来 设计 视 
觉 网 络 ， 而 性 能 比 一 年 前 花费 昂贵 成 本 设计 出 的 网 络 更 优 ， 这 完全 凭借 改善 的 网 络 
架构 和 更 好 的 训练 方法 。 我 坚信 ， 这 仅仅 只 是 个 开始 : 深度 学 习 算法 将 会 更 高 效 ， 
能 够 在 廉价 的 移动 设备 上 运行 ， 即 使 没有 额外 的 硬件 支持 或 是 过 高 的 内 存 开销 。 

Andrej Karpathy， 斯 坦 福 大 学 在 读 计算 机 科学 博士 、OpenAI 研究 科学 家 : 我 不 
打算 从 高 层面 描述 几 个 即将 到 来 的 有 趣 发 展 ， 我 将 会 集中 于 一 个 方面 做 具体 描述 。 我 
看 到 的 一 个 趋势 是 ， 架 构 正 在 迅速 地 变 得 更 大 、 更 复杂 。 我 们 正在 朝 着 建设 大 型 神经 
网 络 系统 方面 发 展 ， 交 换 神 经 组 件 的 输入 /输出 ， 不 同 数据 集 上 预 训练 的 网 络 部 分 ， 
添加 新 模块 ， 同 时 微调 一 切 ， 等 等 。 比 如 ， 卷 积 网 络 曾 是 最 大 / 最 深 的 神经 网 络 架构 
之 一 ， 但 如 今 ， 它 被 抽象 成 了 大 多 数 新 架构 中 的 一 小 部 分 。 反 过 来 ， 许 多 这 些 架 构 也 
会 成 为 将 来 创新 架构 中 的 一 小 部 分 。 我 们 正在 学 习 如 何 堆 “ 乐 高 积木 ”， 以 及 如 何 有 
效 地 将 它们 连 线 嵌 套 建造 大 型 “城堡 ”。 

Pieter Abbeel， 加 州 大 学 伯克利 分 校 计算 机 科学 副教授 、Gradescope 联合 创始 人 : 
有 很 多 技术 都 基于 深度 监督 式 学 习 技 术 ， 视 频 技术 也 是 一 样 ， 搞 清楚 如 何 让 深度 学 习 
在 自然 语言 处 理 方面 超越 现在 的 方法 ， 在 深度 无 监督 学 习 和 深度 强化 学 习 方 面 也 会 取 
得 显著 进步 。 
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平台 和 整合 教学 资源 ， 提 供 标准 数据 接口 ， 统 一 采集 、 认 证 ， 集 中 存储 ， 开 放 计 算 ， 
最 终 消除 “信息 孤岛 ”。 

在 商业 价值 方面 ， 大 数据 挖掘 将 成 为 创造 价值 的 核心 。 历 经 短 短 二 十 年 的 发 展 ， 
大 数据 挖掘 已 引领 全 球 进入 创新 和 竞争 的 新 模式 。 例 如 ， 欧 洲 国家 政府 运用 大 数据 而 
分 别 节省 1000 亿 欧 元 ， 美 国医 疗 业 则 节省 了 3000 亿美 元 。 此 外 ， 大 数据 中 潜在 个 人 
信息 价值 不 可 估量 。 世 界 各 国政 府 都 加 大 了 对 大 数据 发 展 的 扶持 力度 ， 特 别 在 发 达 国 
家 甚至 上 升 到 国家 战略 的 高 度 。 

那么 未 来 5-10 年 中 ， 数 据 挖掘 与 机 器 学 习 将 朝 什么 方向 发 展 ? 以 下 是 行业 内 一 
些 专家 的 访谈 实录 : 

Ilya Sutskever，OpenAI 研究 总 监 : 我 们 应 该 会 看 到 更 为 深层 的 模型 ， 与 如 今 的 
模型 相 比 ， 这 些 模型 可 以 从 更 少 的 训练 样 例 中 学 习 ， 在 非 监 督学 习 方 面 也 会 取得 实质 
性 进展 。 我 们 应 该 会 看 到 更 精准 有 用 的 语音 和 视觉 识别 系统 。 

Sven Behnke， 波 恩 大 学 全 职 教 授 、 自 主 智能 系统 小 组 负责 人 : 我 期 望 深度 学 习 
能 够 越 来 越 多 地 被 用 于 多 模 (multi-modal) 问题 上 ， 在 数据 上 更 结构 化 。 这 将 为 深度 
学 习 开 创新 的 应 用 领域 ， 比 如 机 器 人 技术 、 数 据 挖掘 和 知识 发 现 。 

Christian Szegedy， 谷 歌 高 级 研究 员 : 目前 深度 学 习 算法 和 神经 网 络 的 性 能 与 理 
论 性 能 相去 甚 远 。 如 今 ， 我 们 可 以 用 1/10 到 1/5 的 成 本 ， 以 及 1/15 的 参数 来 设计 视 
觉 网 络 ， 而 性 能 比 一 年 前 花费 昂贵 成 本 设计 出 的 网 络 更 优 ， 这 完全 凭借 改善 的 网 络 
架构 和 更 好 的 训练 方法 。 我 坚信 ， 这 仅仅 只 是 个 开始 : 深度 学 习 算法 将 会 更 高 效 ， 
能 够 在 廉价 的 移动 设备 上 运行 ， 即 使 没有 额外 的 硬件 支持 或 是 过 高 的 内 存 开销 。 

Andrej Karpathy， 斯 坦 福 大 学 在 读 计算 机 科学 博士 、OpenAI 研究 科学 家 : 我 不 
打算 从 高 层面 描述 几 个 即将 到 来 的 有 趣 发 展 ， 我 将 会 集中 于 一 个 方面 做 具体 描述 。 我 
看 到 的 一 个 趋势 是 ， 架 构 正 在 迅速 地 变 得 更 大 、 更 复杂 。 我 们 正在 朝 着 建设 大 型 神经 
网 络 系统 方面 发 展 ， 交 换 神 经 组 件 的 输入 /输出 ， 不 同 数据 集 上 预 训练 的 网 络 部 分 ， 
添加 新 模块 ， 同 时 微调 一 切 ， 等 等 。 比 如 ， 卷 积 网 络 曾 是 最 大 / 最 深 的 神经 网 络 架构 
之 一 ， 但 如 今 ， 它 被 抽象 成 了 大 多 数 新 架构 中 的 一 小 部 分 。 反 过 来 ， 许 多 这 些 架 构 也 
会 成 为 将 来 创新 架构 中 的 一 小 部 分 。 我 们 正在 学 习 如 何 堆 “ 乐 高 积木 ”， 以 及 如 何 有 
效 地 将 它们 连 线 嵌 套 建造 大 型 “城堡 ”。 

Pieter Abbeel， 加 州 大 学 伯克利 分 校 计算 机 科学 副教授 、Gradescope 联合 创始 人 : 
有 很 多 技术 都 基于 深度 监督 式 学 习 技 术 ， 视 频 技术 也 是 一 样 ， 搞 清楚 如 何 让 深度 学 习 
在 自然 语言 处 理 方面 超越 现在 的 方法 ， 在 深度 无 监督 学 习 和 深度 强化 学 习 方 面 也 会 取 
得 显著 进步 。 
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Eli David, Deep Instinct CTO: 在 过 去 的 两 年 中 ， 我 们 观察 到 ， 在 大 多 数 使 用 了 
深度 学 习 的 领域 中 ， 深 度 学 习 取得 了 极 大 的 成 功 。 即 使 未 来 5 年 深度 学 习 无 法 达到 人 
类 水 平 的 认 知 (尽管 这 很 可 能 在 我 们 有 生 之 年 发 生 ) ， 我 们 也 将 会 看 到 在 许多 其 他 领 
域 里 深度 学 习 会 有 巨大 的 改进 。 具 体 而 言 ， 我 认为 最 有 前 途 的 领域 将 是 无 监督 学 习 
因为 世界 上 大 多 数 数据 都 是 未 标记 的 ， 而 且 我 们 大 脑 的 新 皮层 是 一 个 很 好 的 无 监督 学 
习 区 域 。 

Deep Instinct 是 第 一 家 使 用 深度 学 习 进行 网 络 安全 研究 的 公司 ， 在 今后 几 年 里 ， 
我 希望 有 更 多 的 公司 使 用 深度 学 习 进 行 网 络 安全 研究 。 然 而 ， 使 用 深度 学 习 的 门槛 还 
是 相当 高 的 ， 尤 其 是 对 那些 通常 不 使 用 人 工 智能 方法 〈 如 只 有 少数 几 个 解决 方案 采用 
经 典 机 器 学 习 方 法 ) 的 网 络 安全 公司 ， 所 以 在 深度 学 习 成 为 网 络 安全 领域 广泛 运用 的 
日 常 技 术 之 前 ， 这 还 将 需要 数 年 时 间 。 

Daniel McDuff, Affectiva 研究 总 监 : 深度 学 习 已 经 成 为 在 计算 机 视觉 、 语 音 分 
析 和 许多 其 他 领域 占 优势 的 机 器 学 习 形式 。 我 希望 通过 一 个 或 两 个 GPU 提供 的 计算 
能 力 构建 出 的 精准 识别 系统 能 够 让 研究 人 员 在 现实 世界 中 开发 和 部 署 新 的 软件 。 我 希 
望 有 更 多 的 重点 放 在 无 监督 训练 、 半 监督 训练 算法 上 ， 因 为 数据 一 直 不 断 增长 。 

Jörg Bornschein， 加 拿 大 高 级 研究 所 (CIFAR) 全 球 学 者 : 预测 未 来 总 是 很 难 。 
我 希望 无 监督 、 半 监督 和 强化 学 习 方法 将 会 扮演 比 今天 更 突出 的 角色 。 当 我 们 考虑 将 
机 器 学 习作 为 大 型 系统 的 一 部 分 ， 比 如 : 在 机 器 人 控制 系统 或 部 件 中 ， 掌 控 大 型 系统 
计算 资源 ， 似 乎 很 明显 地 可 以 看 出 ， 纯 监督 式 方法 在 概念 上 很 难 妥 善 解决 这 些 问题 。 

Ian Goodfellow， 谷 歌 高 级 研究 科学 家 : 我 希望 在 5 年 之 内 ， 我 们 可 以 让 神经 网 
络 总 结 视频 片段 的 内 容 ， 并 能 够 生成 视频 短片 。 神 经 网 络 已 经 是 视觉 任务 的 标准 解决 
方案 了 。 我 希望 它 也 能 成 为 NLP 和 机 器 人 任务 的 标准 解决 方案 。 我 还 预测 ， 神 经 网 
络 将 成 为 其 他 科学 学 科 的 重要 工具 。 例 如 ， 神 经 网 络 可 以 被 训练 来 对 基因 、 药 物 和 和 蛋 
白质 行为 进行 建 模 ， 然 后 用 于 设计 新 药物 。 

Nigel Duffy, Sentient Technologies CTO: 目前 大 数据 生态 系统 一 直 专 注 于 收集 、 
管理 、 策 展 大 量 数据 。 很 明显 ， 在 分 析 和 预测 方面 也 有 很 多 工作 。 从 根本 上 说 ， 企 业 
用 户 不 关心 那些 。 企 业 用 户 只 关心 结果 ， 即 : “这 些 数据 将 会 改变 我 的 行为 方式 吗 ? 
将 会 改变 我 做 出 的 抉择 吗 ? ”我 们 认为 ， 这 些 问题 是 未 来 5 年 需要 解决 的 关键 问题 。 
我 们 相信 ， 人 工 智能 将 会 是 数据 和 更 好 的 决策 之 间 的 桥梁 。 

很 明显 ， 深 度 学 习 将 会 在 演变 中 起 到 显著 的 作用 ， 但 它 需 要 与 其 他 人 工 智 能 方法 
结合 。 在 接 下 来 的 5 年 里 ， 我 们 会 看 到 在 越 来 越 多 的 混合 系统 中 ， 深 度 学 习 用 于 处 理 
一 些 难 以 感知 的 任务 ， 而 其 他 人 工 智能 和 机 器 学 习 (ML) 技术 用 于 处 理 其 他 部 分 的 
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问题 ， 如 推理 。 

Koray Kavukcuoglu & Alex Graves， 谷 歌 DeepMind 研究 科学 家 : 未 来 5 年 会 发 
生 许多 事 。 我 们 希望 无 监督 学 习 和 强化 学 习 会 更 加 杰出 。 我 们 同样 希望 看 到 更 多 的 多 
模式 学 习 ， 以 及 对 多 数据 集 学 习 更 加 关注 。 

Charlie Tang， 多 伦 多 大 学 机 器 学 习 小 组 博士 生 : 深度 学 习 算法 将 逐步 用 于 更 多 
的 任务 并 且 将 “解决 ”更 多 的 问题 。 例 如 : 5 年 前 ， 人 脸 识 别 算法 的 准确 率 仍然 比 
人 类 表现 略 差 。 然 而 ， 目 前 在 主要 人 脸 识 别 数据 集 FW) 和 标准 图 像 分 类 数据 集 
(Imagenet) 上 算法 的 表现 已 经 超过 了 人 类 。 在 未 来 5 年 里 ， 越 来 越 难 的 问题 ， 如 视 
频 识别 、 医 学 影像 或 文字 处 理 将 顺利 由 深度 学 习 算 法 解决 。 我 们 还 可 以 看 到 深度 学 习 
算法 被 移植 到 商业 产品 中 ， 就 像 10 年 前 人 脸 检测 如 何 被 纳入 相机 中 一 样 。 

此 外 ，2016 年 12 月 1 日， 达观 数据 CEO 陈 运 文 作为 大 数据 领域 专家 在 大 会 “人 
工 智能 与 大 数据 ”分 论坛 上 发 言 中 提 到 : 

个 性 化 数据 挖掘 是 大 数据 发 展 趋势 ， 从 大 数据 概念 诞生 至 今 ， 数 据 的 作用 和 力量 
一 直 备 受 肯定 并 持续 得 到 验证 。 随 着 大 数据 技术 的 发 展 , 数据 挖掘 的 深度 在 不 断 增加 ， 
数据 应 用 的 广度 也 在 不 断 扩 展 。 在 企业 运营 方面 ， 大 数据 逐渐 成 为 不 可 替代 的 运营 决 
策 依据 和 执行 手段 。 

他 还 指出 : 数据 挖掘 应 用 的 发 展 趋势 是 从 整体 统计 到 分 群 统计 ， 再 到 个 体 分 析 。 
因为 个 性 化 数据 挖掘 能 帮助 企业 更 加 了 解 用 户 ， 通 过 对 用 户 浏览 、 购 买 、 搜 索 和 排序 
等 行为 的 数据 挖掘 ， 知 道 这 些 用 户 是 谁 、 从 哪里 来 、 有 什么 样 的 行为 偏好 ， 甚 至 预测 
用 户 什么 时 候 会 流失 ， 面 向 未 来 的 数据 预测 才 有 更 大 价值 。 除 了 用 户 研究 ， 大 数据 也 
被 用 来 进行 广泛 的 数据 统计 。 如 对 商品 的 数量 、 种 类 、 销 量 等 进行 统计 ， 可 以 帮助 企 
业 获取 销售 信息 。 

陈 运 文 认为 ， 面 向 未 来 的 数据 预测 才 有 更 大 价值 。 当 企业 获得 数据 后 ， 要 充分 发 
挥 数 据 的 价值 ， 就 要 对 数据 进行 进一步 的 分 析 挖掘 ， 从 而 对 商品 销量 、 热 卖 做 出 相对 
准确 的 预测 ， 解 决 库存 问题 。 陈 运 文 以 沃尔玛 Retail Link 为 例 , 说 明 就 算是 传统 企业 ， 
离 大 数据 也 并 不 遥远 。 

个 性 化 数据 挖掘 助力 企业 精细 化 运营 : 无 论 是 用 户 研究 还 是 数据 预测 ， 最 终 目的 
都 是 要 连接 用 户 与 产品 ， 帮 助 企业 解决 问题 。 搜 索引 擎 和 推荐 系统 是 两 个 典型 的 个 性 
化 数据 挖掘 的 产物 ， 搜 索 系统 通过 个 性 化 数据 挖掘 识别 用 户 搜索 意图 ， 帮 助 用 户 快速 
精准 地 找到 自己 想 要 的 内 容 ， 推 荐 系统 通过 个 性 化 数据 挖掘 分 析 用 户 行为 偏好 ， 向 用 
户 推荐 商品 或 内 容 ， 大 大 提高 转化 率 。 与 缺少 大 数据 支持 的 运营 活动 相 比 ， 搜 索引 擎 
和 推荐 系统 更 加 精准 高 效 ， 真 正 帮 企 业 实现 了 精细 化 运营 ， 从 而 提高 了 效率 ， 降 低 了 
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成 本 。 反 过 来 ， 搜 索引 擎 与 推荐 系统 又 在 不 断 收集 用 户 的 操作 数据 ， 形 成 一 个 对 数据 
收集 、 分 析 、 应 用 的 良性 循环 。 

短 短 几 年 之 内 ， 大 数据 已 经 彻底 改变 了 企业 运营 业务 的 方式 一 一 但 截至 目前 ， 我 
们 才刚 刚 窥 其 门 径 。 随 着 企业 开始 有 意识 地 收集 各 类 数据 信息 ， 人 们 才 逐 渐 发 现 对 这 
部 分 数据 加 以 正确 利用 所 能 够 带 来 的 巨大 潜力 。 

从 企业 发 展 来 说 ， 毫 无 疑问 ， 人 工 智能 、 大 数据 是 自 2016 年 下 半年 以 来 最 受 关 
注 的 话题 ， 和 一 般 的 投资 热点 不 同 ， 这 次 人 工 智 能 所 产生 的 影响 或 将 是 “颠覆 式 ” 的 
易 观 国际 集团 董事 长 兼 CEO 于 扬 先生 这 样 评 判 这 次 变革 : “作为 一 个 预测 了 互联 网 
化 ， 预 测 了 “互联 网 +” 的 公司 ， 我 们 今天 有 一 个 大 胆 的 预言 是 ， 下 一 个 基础 设施 一 
定 是 人 工 智能 ， 它 是 一 个 与 互联 网 一 样 可 以 匹敌 的 强大 的 基础 设施 。” 盛 景 嘉 成 母 基 
金 创始 合伙 人 彭 志 强 先生 认为 “从 客观 上 说 ， 如 今 大 数据 的 生态 系统 在 日 至 完善 ， 数 
据 的 收集 、 管 理 、 应 用 等 各 个 层次 都 在 逐步 形成 ， 而 每 个 层次 都 有 代表 性 的 公司 完成 
商业 化 或 者 较 大 规模 融资 。 而 在 投资 领域 尤其 是 ToB 市 场 中 ， 大 数据 已 经 成 为 标 配 ， 
投资 人 的 投资 组 合 里 一 定 有 大 数据 相关 的 公司 出 现 。 在 新 三 板 ， 大 数据 板块 也 即将 拉 
开 序幕 ， 里 面 的 公司 表现 令 人 非常 振奋 ”。 

易 观 创始 人 于 扬 先 生 更 是 认为 : RK, 所 有 企业 都 会 成 为 数字 企业 。 于 扬 先生 说 : 
“在 那个 时 候 ， 我 们 讲 所 有 企业 都 会 成 为 互联 网 企业 的 时 候 ， 也 是 讲 企 业 业 务 流程 要 
更 多 与 线 上 结合 ， 而 今天 我 们 讲 的 是 企业 全 部 流程 完全 是 数字 化 的 、 是 程序 化 的 表 
达 。” 此 外 于 扬 先生 还 强调 了 用 户 资产 的 重要 性 ，“ 所 有 的 企业 必须 清楚 这 样 一 点 ， 
我 们 只 有 把 用 户 看 为 资产 ， 我 们 只 有 用 资产 管理 的 角度 去 看 数字 用 户 ， 才 真正 能 够 从 
用 户 资产 成 长 中 获 益 ”。 

在 易 观 分 析 师 顾问 群 组 总 经 理 董 旭 看 来 ， 共 享 经 济 也 内 涵 了 大 数据 的 精髓 : “ 今 
天 大 家 会 发 现 ， 企 业 的 身份 变 了 ， 从 原来 直接 提供 服务 和 直接 提供 商品 ， 变 成 了 今天 
提供 一 个 服务 的 平台 ， 所 以 大 家 会 发 现 ， 撮 合 供给 和 交易 的 过 程 当中 ， 企 业 的 关键 成 
功 要 素 也 发 生 了 变化 。 原 来 是 我 要 有 足够 多 的 产品 和 服务 能 够 给 到 流量 、 给 到 用 户 ， 
跟 用 户 有 一 个 比较 精准 的 匹配 ， 这 是 我 的 核心 关键 ， 今 天 就 变 成 了 我 要 通过 数据 、 要 
通过 算法 、 要 通过 在 不 同 应 用 界面 上 的 应 用 ， 来 更 有 效 地 气 合 供给 和 需求 。” 

一 些 积极 迎接 变革 的 企业 发 现 ， 他 们 的 数据 实际 上 可 能 正 是 其 掌握 的 最 大 资产 。 
除了 数据 本 身 之 外 ， 精 明 的 企业 还 能 够 通过 分 析 数 据 内 容 以 了 解 并 更 好 地 服务 于 自身 
客户 ， 甚 至 能 够 将 其 中 一 些 关键 性 数据 出 售 给 合作 伙伴 及 下 游 厂 商 以 赚 取 额 外 利润 。 
举例 来 说 ， 优 步 与 Lyft 等 服务 就 能 够 非常 准确 地 把 握 与 客户 出 行 习惯 相关 的 数据 ， 
并 将 其 交付 至 Airbnb, VRBO 等 其 他 网 站 。 与 此 同时 ，Fitbit 及 其 他 厂商 提供 的 健身 
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追踪 器 也 能 够 利用 用 户 的 健康 活动 数据 实现 巨大 价值 。 即 使 是 与 医疗 卫生 业务 毫 不 沾 
边 的 苹果 公司 ， 也 能 够 以 前 所 未 有 的 洞察 能 力 审视 其 原生 健康 应 用 数据 。 

从 理论 层面 讲 ， 如 此 庞大 的 数据 宝库 将 能 够 为 B2B 及 B2C 企业 带 来 集中 且 立 足 
实践 行为 的 洞察 结论 ， 进 而 以 前 所 未 有 的 方式 开启 新 的 机 遇 大 门 。 然 而 ， 面 对 一 系列 
重大 的 技术 性 与 财务 性 障碍 ， 很 多 企业 实际 上 并 不 清楚 自己 的 下 一 步 大 数据 战略 该 走 
向 何 处 。 很 多 企业 已 经 开始 在 数据 挖 据 领 域 试 水 ， 但 尚未 制定 出 一 套 能 够 顺利 迈进 的 
坚实 战略 思路 。 

为 何 存 在 挑战 ? 截至 目前 ， 实 现 大 数据 技术 承诺 的 最 大 障碍 之 一 在 于 庞大 的 资金 
投入 要 求 。 从 当下 的 情况 来 看 ， 最 为 成 功 的 项 目 往 往 需 要 耗资 数 百 万 美元 ， 如 沃尔玛 
的 专用 数据 创新 实验 室 WalmartLabs。 然 而 ， 这 种 项 目 只 适用 于 世界 上 那些 最 为 庞大 
的 企业 ， 其 具备 极为 雄厚 的 财力 与 资源 。 很 明显 ， 这 样 的 标准 对 于 其 他 公司 而 言 并 不 
适用 ， 或 者 说 毫 无 实现 的 可 能 。 

为 何 利用 大 数据 技术 会 呈现 出 如 此 明确 的 资源 密集 型 倾向 ? 答案 主要 分 为 以 下 
ZAA m: 

数据 的 输入 速度 极 快 ， 且 数据 来 源 数量 也 急剧 增加 : 移动 、 云 应 用 、 物 联网 一 一 
从 用 于 追踪 库存 与 设备 的 RF 标签 到 一 切 接 入 网 络 的 家 用 电器 一 一 当然 ， 社 交 媒 体 也 
是 一 大 不 容 忽视 的 实时 数据 来 源 。 

此 类 新 型 来 源 几 乎 全 部 以 非 结 构 化 或 者 半 结 构 化 格式 交付 数据 ， 这 使 得 传统 的 关 
系 型 数据 库 管理 方案 , 即 SQL 及 几乎 一 切 现代 数据 库 系 统 的 实现 基础 毫 无 用 武之 地 。 
除了 收集 及 存储 方面 的 挑战 之 外 ， 合 规 性 要 求 中 的 隐私 与 监管 要 求 也 会 带 来 新 的 
复杂 性 。 不 断 发 展 的 标准 要 求 需要 完整 团队 配合 先进 的 技术 、 管 理 与 维护 手段 方 可 
实现 。 

随 着 数据 复杂 度 的 日 益 提 高 ， 用 于 管理 数据 的 具体 技术 方案 也 变 得 更 难以 使 用 。 
Hadoop, Kafka, Hive, Drill, Storm, MongoDB 及 Cassandra 等 开源 工具 外 加 一 系列 
专 有 方案 共同 构成 了 独立 且 相互 竞争 的 方案 生态 系统 ， 只 有 具备 深厚 的 技术 操作 知识 
方 可 将 其 真正 应 用 在 商业 环境 当中 。 事 实 上 ， 此 类 人 才 资 源 非 常 稀缺 ， 大 多 数 非 财富 
五 百 强 企业 都 无 力 承担 由 此 带 来 的 高 昂 开 支 。 

缺失 之 处 何在 ? 可 以 看 到 ， 绝 大 多 数 企业 仅仅 是 在 努力 管理 并 挖掘 自己 的 存储 数 
据 集 ， 而 很 难 实际 利用 数据 中 的 信息 建立 自身 竞争 优势 。 在 实践 性 、 实 用 性 及 可 行 性 
方面 ， 企 业 还 无 法 充分 运用 现 有 的 工具 发 挥 数据 中 的 可 观 潜 能 。 需 要 明确 的 是 ， 目 前 
我 们 并 不 缺乏 良好 的 大 数据 工具 ， 事 实 上 我 们 缺乏 的 是 真正 具备 效率 与 有 效 性 的 解决 
方案 ， 这 种 能 够 解决 数据 孤岛 及 高 度 依赖 性 难题 的 手段 既 匮乏 又 难以 维护 。 
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为 什么 ? 因为 截至 目前 ， 我 们 的 重点 一 直 放 在 整合 应 用 程序 并 建立 各 类 独立 工具 
与 平台 之 间 的 连接 机 制 ， 缺 少 这 种 桥梁 它们 将 根本 无 法 协作 。 举 例 来 说 ， 我 们 需要 想 
办 法 对 接 CROM 与 ERP， 或 者 将 销售 工具 与 市 场 营销 自动 化 机 制 相 整 合 。 

这 种 应 用 到 应 用 型 方案 的 问题 在 于 ， 其 完全 忽略 了 数据 本 身 一 一 这 意味 着 数据 仍 
然 可 能 以 分 裂化 、 孤 立 化 或 碎片 化 形式 存在 。 即 使 应 用 程序 能 够 彼此 连接 ， 如 果 其 各 
自 拥 有 自己 的 数据 存储 形式 ， 那 么 数据 也 无 法 实现 通用 。 这 意味 着 我 们 将 面 对 大 量 不 
完整 或 者 重复 的 数据 记录 ， 即 通常 所 谓 的 “ 脏 ” 数 据 。 任 何 分 析 方 法 都 无 法 利用 这 样 
的 数据 素材 提供 可 靠 的 结论 一 一 因为 数据 本 身 就 不 够 可 靠 。 

我 们 该 如 何 解决 问题 ? 

为 了 真正 处 理 大 数据 同时 利用 其 实现 洞察 分 析 与 业务 增长 ， 而 非 单 纯 进 行 数 
据 收集 一 一 我 们 需要 一 套 新 型 方案 以 专注 于 数据 本 身 ， 而 非 应 用 程序 。 事 实 上 ， 相 
较 于 应 用 程序 级 别 ， 立 足 于 数据 层级 解决 集成 化 问题 才 是 实现 大 数据 项 目 成 功 的 关 
键 所 在 。 

通过 将 集成 与 数据 管理 融入 单一 统一 化 平台 ， 我 们 将 能 够 构建 起 一 套 全 面 、 简 洁 
且 具 备 来 源 中 立 性 的 数据 湖 ， 企 业 可 将 其 作为 单一 可 靠 来 源 基础 ， 并 接受 任何 源 或 分 
析 应 用 的 写 入 或 读 取 访问 。 除 了 敞开 大 门 允许 几乎 一 切 应 用 出 于 几乎 一 切 目的 以 正确 
方式 接 入 正确 数据 之 外 ， 其 还 能 够 显著 提升 分 析 工 作 的 效率 、 精 度 与 可 信 度 。 

iPaaS 就 是 答案 ? 也 许 言 之 尚 早 。 

尽管 不 少 从 业者 高 度 提倡 将 iPaaS〈 即 集成 平台 即 服务 ) 作为 最 佳 解决 方案 ， 但 
这 种 自助 式 方案 仍然 会 给 内 部 团队 带 来 沉重 的 复杂 集成 工作 负担 ， 而 且 相当 一 部 分 企 
业 根 本 不 具备 相关 资源 或 者 由 自身 IT 及 业务 人 员 管 理 集成 化 “管道 ”的 意愿 。 但 随 
着 新 型 集成 化 需求 的 快速 涌现 ， 我 们 很 难 找到 顺畅 可 行 的 iPaaS 方案 规模 扩展 途径 ， 
更 不 用 提 由 此 带 来 的 合 规 性 与 数据 治理 难题 了 。 为 业务 用 户 提供 独立 于 IT 之 外 配置 
集成 机 制 的 能 力 可 能 对 安全 性 及 合 规 性 造成 危害 ， 也 可 能 无 意 中 导致 企业 遭遇 信息 泄 
露 进 而 受到 惩罚 ， 同 时 此 类 未 受 IT 集成 策略 支持 的 一 次 性 实施 工作 还 可 能 造成 设计 
中 需要 尽 可 能 避免 的 数据 孤岛 问题 。 

最 后 ， 尽 管 实现 过 程 较为 简单 ， 但 其 在 成 本 与 可 扩展 能 力 方面 存在 严重 局 限 。 利 
用 iPaaS， 我 们 将 很 难为 未 来 的 发 展 做 好 打算 ; 在 本 质 上 说 ， 这 只 是 一 种 临时 性 解决 
办 法 ， 且 必须 反复 调整 以 适应 需求 增长 与 变化 。 

理想 的 解决 方案 : dPaaS 真正 实现 大 数据 成 功 。 值 得 庆幸 的 是 ， 目 前 已 经 出 现 了 
一 种 全 新 的 大 数据 管理 与 集成 方法 ， 且 适用 于 任何 规模 的 企业 ， 并 可 通过 高 效 、 可 管 
理 且 可 扩展 的 方式 对 大 数据 资源 加 以 运用 。 
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数据 平台 即 服务 ， 简 称 dPaaS， 是 一 套 统一 化 多 租户 云 平 台 ， 可 通过 更 为 灵活 且 
以 数据 为 中 心 的 应 用 中 立 性 方式 提供 集成 与 数据 管理 托管 服务 ， 从 而 满足 几乎 一 切 与 
大 数据 相关 的 需求 。 相 较 于 专注 于 集成 应 用 程序 ，dPaaS 专门 负责 集成 数据 ， 确 保 跨 
应 用 数据 湖 读 取 或 写 入 操作 的 简洁 性 、 质 量 、 可 访问 性 及 合 规 性 。 

利用 dPaaS， 企 业 能 够 彻底 告别 数据 孤岛 及 复杂 性 乃至 高 成 本 集成 项 目 ， 真 正 随 
时 拥抱 新 型 应 用 ， 从 坚实 的 数据 存储 库 内 提取 信息 并 保持 完整 的 数据 生命 周期 内 可 视 
性 一 一 且 享 受 各 类 内 置 合 规 性 与 治理 能 力 。 下 面 来 看 其 中 的 几 项 核心 功能 

(1) 统一 化 数据 管理 

利用 dpPaaS， 企 业 的 整体 数据 存储 库 可 被 管理 为 单一 全 面 存储 集合 。 不 同 于 
iPaaS 应 用 到 应 用 类 集成 方案 所 导致 的 数据 孤岛 、 不 匹配 字段 、 缺 失 值 、 重 复 记 录 以 
及 其 他 “ 脏 ” 数 据 问题 ，dPaas 能 够 保持 数据 独立 于 应 用 程序 之 外 。 其 创建 并 维持 一 
套 无 模式 中 央 存 储 库 ， 同 时 包含 指向 几乎 一 切 数据 源 的 元 数据 关系 ， 这 意味 着 企业 能 
够 轻松 地 随时 添加 新 型 应 用 并 继续 保持 其 数据 的 简洁 性 、 综 合 性 与 准确 性 。 

(2) 内 置 合 规 性 

保持 对 不 断 演变 的 合 规 性 要 求 的 持续 遵循 正 变 得 越发 困难 且 成 本 高 晶 ， 这 意味 着 
我 们 需要 投入 大 量 资源 与 时 间 进 行 审 计 及 重新 认证 。 然 而 利用 dPaaS， 合 规 性 能 够 立 
足 数据 层 得 到 保障 ， 这 意味 着 由 相关 平台 供应 商 负责 对 基础 设施 进行 持续 认证 维护 ， 
从 而 确保 以 全 面 而 非 零 散 的 方式 进行 监管 遵循 。 具 体 来 讲 ，dPaaS 会 将 大 部 分 合 规 性 
负担 转移 给 供应 商 ， 从 而 更 好 地 保障 闲置 与 活动 数据 与 合 规 要 求 相 符 。 

(3) 车 越 中 心 

dPaaS 能 够 构建 起 一 套 集成 卓越 中 心 (简称 COE) ， 甚 至 使 得 中 小 型 企业 能 够 
利用 来 自 供 应 商 的 资源 、 知 识 、 流 程 、 工 具 乃 至 人 才 实现 出 色 的 效率 并 解决 更 为 复杂 
的 业务 流程 及 挑战 。 构 建 内 部 卓越 中 心 过 去 需要 规模 庞大 的 团队 方 可 实现 ， 但 如 今 
dPaaS 能 够 将 卓越 中 心 作为 一 种 常态 。 平 台 供应 商 负责 提供 专业 人 员 、 资 源 及 工具 ， 
这 意味 着 几乎 任何 规模 的 企业 皆 可 利用 这 一 综合 性 集成 卓越 中 心 享受 到 前 沿 技术 与 
服务 。 

(4) 管理 服务 

与 自助 性 iPaaS 解决 方案 不 同 ，dPaaS 能 够 将 大 部 分 集成 复杂 性 转移 至 平台 供应 
商 处 ， 由 后 者 负责 处 理 ETL 及 其 他 用 于 构成 集成 基础 的 “管道 ”流程 。 这 不 仅 能 
让 企业 拥有 更 出 色 的 成 本 效益 水 平 ， 同 时 也 可 简化 最 新 技术 的 获取 方式 ， 帮 助 客户 保 
持 明确 的 市 场 竞争 优势 。 这 意味 着 企业 客户 能 够 将 更 多 内 部 人 员 及 预算 投入 到 战略 性 
项 目 当中 ， 进 而 有 力 推动 营 收 增长 并 强化 企业 的 核心 业务 。 
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(5) dPaaS 的 光明 未 来 

凭借 全 面 的 统一 化 数据 集成 与 管理 方案 ，dPaas 已 经 显示 出 光明 的 发 展 前 景 ， 足 
以 帮助 客户 摆脱 过 去 粗放 的 数据 挖掘 工作 ， 真 正 迈 入 大 数据 利用 阶段 。 而 由 此 提供 的 
全 部 工具 及 专业 知识 以 及 未 来 发 展 路 线 图 一 一 都 将 帮助 企业 以 更 加 高 效 、 有 效 且 
具备 成 本 效益 的 方式 建立 并 推动 大 数据 项 目 。 

相 较 于 浪费 时 间 与 精力 “重新 发 明 轮子 ”， 企 业 应 当 利 用 dPaaS 帮助 自身 建立 竞 
争 优势 ， 同 时 更 为 准确 地 获取 并 保持 市 场 领先 性 。 

(1) 趋势 一 :数据 的 资源 化 

所 谓 资源 化 ， 是 指 大 数据 成 为 企业 和 社会 关注 的 重要 战略 资源 ， 并 已 成 为 大 家 争 
相 抢夺 的 新 焦点 。 因 而 ， 企 业 必须 提前 制订 大 数据 营销 战略 计划 ， 抢 占 市 场 先 机 。 

(2) 趋势 二 : 与 云 计 算 的 深度 结合 

大 数据 离 不 开 云 处 理 ， 云 处 理 为 大 数据 提供 了 弹性 、 可 拓展 的 基础 设备 ， 是 产生 
大 数据 的 平台 之 一 。 从 2013 年 开始 ， 大 数据 技术 已 开始 和 云 计 算 技术 紧密 结合 ， 
计 未 来 两 者 关系 将 更 为 密切 。 除 此 之 外 ， 物 联网 、 移 动 互联 网 等 新 兴 计算 形态 ， 也 将 
一 齐 助力 大 数据 革命 ， 让 大 数据 营销 发 挥 出 更 大 的 影响 力 。 

(3) 趋势 三 ， 科 学 理论 的 突破 

随 着 大 数据 的 快速 发 展 ， 就 像 计 算 机 和 互联 网 一 样 ， 大 数据 很 有 可 能 是 新 一 轮 的 
技术 革命 。 随 之 兴起 的 数据 挖掘 、 机 器 学 习 和 人 工 智 能 等 相关 技术 ， 可 能 会 改变 数据 
世界 里 很 多 的 算法 和 基础 理论 ， 实 现 科 学 技术 上 的 突破 。 

(4) 趋势 四 : 数据 科学 和 数据 联盟 的 成 立 

未 来 ， 数 据 科学 将 成 为 一 门 专门 的 学 科 ， 被 越 来 越 多 的 人 所 认 知 。 各 大 高 校 将 设 
立 专门 的 数据 科学 类 专业 ， 也 会 催生 一 批 与 之 相关 的 新 的 就 业 岗 位 。 与 此 同时 ， 基 于 
数据 这 个 基础 平台 ， 也 将 建立 起 跨 领 域 的 数据 共享 平台 ， 之 后 ， 数 据 共享 将 扩展 到 企 
业 层 面 ， 并 且 成 为 未 来 产业 的 核心 一 环 。 

另外 ， 大 数据 作为 一 种 重要 的 战略 资产 ， 已 经 不 同 程度 地 渗透 到 每 个 行业 领域 和 
部 门 ， 其 深度 应 用 不 仅 有 助 于 企业 经 营 活动 ， 还 有 利于 推动 国民 经 济 发 展 。 它 对 于 推 
动 信息 产业 创新 、 大 数据 存储 管理 挑战 、 改 变 经 济 社会 管理 面貌 等 方面 也 意义 重大 。 

现在 ， 通 过 数据 的 力量 ， 用 户 希 望 掌握 真正 的 便捷 信息 ， 从 而 让 生活 更 有 趣 。 对 
于 企业 来 说 ， 如 何 从 海量 数据 中 挖掘 出 可 以 有 效 利用 的 部 分 ， 并 且 用 于 品牌 营销 ， 才 
是 企业 制胜 的 法 宝 。 
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以 上 对 大 数据 挖掘 的 发 展 趋势 从 各 方面 进行 了 阐述 ， 在 接 下 来 的 部 分 ， 我 们 将 从 
2016 The IEEE International Conference on Data Mining series (ICDM) 会 议 收录 的 论 
文 角度 来 对 大 数据 挖掘 的 发 展 趋势 进行 分 析 。 

会 议论 文 涵盖 数据 挖掘 的 各 个 方面 ， 主 要 分 为 算法 改进 型 和 应 用 型 论文 及 问题 解 
决 型 论文 ， 其 中 算法 改进 型 论文 涵盖 在 前 面 章节 提 到 的 数据 挖掘 的 各 种 算法 : 聚 类 算 
法 、 分 类 算法 、 关 联 算法 、 增 强 算法 ， 同 时 也 包括 了 之 前 章节 没有 提 及 的 算法 : 多 任 
务 学 习 和 黑 盒 测 试 算法 。 

聚 类 算法 是 数据 挖掘 中 的 重要 算法 之 一 。Benjamin Schelling 把 聚 类 比喻 成 一 个 
狩猎 的 过 程 ， 提 出 一 种 叫 作 levy walk 的 聚 类 模型 ， 该 模型 相 比 于 现 有 的 聚 类 模型 能 
够 很 好 地 对 抗 噪声 并 且 几 乎 不 用 设置 参数 (Benjamin Schelling, 2016) 。 现 有 的 文本 
分 类 普遍 面临 的 一 个 问题 就 是 文本 数据 的 组 织 本 身 是 一 个 很 复杂 的 过 程 。 而 Niloofer 
Shanavas 基于 此 提出 一 种 文本 自动 分 类 的 算法 (Niloofer Shanavas，2016) 。 子 空间 
聚 类 算法 是 指 把 数据 的 原始 特征 空间 分 割 为 不 同 的 特征 子 集 ， 从 不 同 的 子 空间 角度 考 
察 各 个 数据 艇 聚 类 划分 的 意义 ， 同 时 在 聚 类 过 程 中 为 每 个 数据 艇 寻找 到 相应 的 特征 子 
空间 。 子 空间 聚 类 算法 实际 上 是 将 传统 的 特征 选择 技术 和 聚 类 算法 进行 结合 ， 在 对 数 
据 样本 聚 类 划分 的 过 程 中 ， 得 到 各 个 数据 徐 对 应 的 特征 子 集 或 者 特征 权重 。 根 据 目 
前 的 研究 结果 ， 做 空间 聚 类 可 以 分 为 硬 子 空间 聚 类 和 软 子 空间 聚 类 两 种 形式 。Wei 
Ye 针对 子 空间 聚 类 提出 一 种 新 颖 的 能 在 任意 方向 找到 非 元 余 的 子 空间 聚 类 的 改进 
算法 。 论 文 使 用 独立 子 空间 分 析 方 法 CISA) 找到 子 空间 集合 ， 最 大 限度 地 减少 聚 类 
之 间 的 依赖 度 ( 元 余 度 ) 。 此 外 ， 算 法 使 用 最 小 描述 长 度 原则 来 对 参数 进行 自动 设置 。 
Dominik Mautz 基于 现 有 聚 类 算法 性 能 往往 很 大 程度 受到 参数 设置 影响 的 现状 提出 一 
种 叫 作 SubCluEns 的 集成 聚 类 算法 ， 该 算法 基于 最 小 描述 长 度 原则 ， 把 多 个 子 空间 和 
投影 子 空间 的 聚 类 结果 集成 起 来 得 到 最 后 的 聚 类 结果 (Dominik Mautz，2016) 。 

在 前 面 的 章节 中 我 们 已 经 提 到 过 聚 类 算法 属于 无 监督 学 习 。 实 际 上 传统 的 机 器 学 
习 技术 分 为 两 类 : 一 类 是 无 监督 学 习 ; 另 一 类 是 监督 学 习 。 无 监督 学 习 只 利用 未 标记 
的 样本 集 ， 而 监督 学 习 则 只 利用 标记 的 样本 集 进行 学 习 。 但 在 很 多 实际 问题 中 ， 只 有 
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以 上 对 大 数据 挖掘 的 发 展 趋势 从 各 方面 进行 了 阐述 ， 在 接 下 来 的 部 分 ， 我 们 将 从 
2016 The IEEE International Conference on Data Mining series (ICDM) 会 议 收录 的 论 
文 角度 来 对 大 数据 挖掘 的 发 展 趋势 进行 分 析 。 

会 议论 文 涵盖 数据 挖掘 的 各 个 方面 ， 主 要 分 为 算法 改进 型 和 应 用 型 论文 及 问题 解 
决 型 论文 ， 其 中 算法 改进 型 论文 涵盖 在 前 面 章节 提 到 的 数据 挖掘 的 各 种 算法 : 聚 类 算 
法 、 分 类 算法 、 关 联 算法 、 增 强 算法 ， 同 时 也 包括 了 之 前 章节 没有 提 及 的 算法 : 多 任 
务 学 习 和 黑 盒 测 试 算法 。 

聚 类 算法 是 数据 挖掘 中 的 重要 算法 之 一 。Benjamin Schelling 把 聚 类 比喻 成 一 个 
狩猎 的 过 程 ， 提 出 一 种 叫 作 levy walk 的 聚 类 模型 ， 该 模型 相 比 于 现 有 的 聚 类 模型 能 
够 很 好 地 对 抗 噪声 并 且 几 乎 不 用 设置 参数 (Benjamin Schelling, 2016) 。 现 有 的 文本 
分 类 普遍 面临 的 一 个 问题 就 是 文本 数据 的 组 织 本 身 是 一 个 很 复杂 的 过 程 。 而 Niloofer 
Shanavas 基于 此 提出 一 种 文本 自动 分 类 的 算法 (Niloofer Shanavas，2016) 。 子 空间 
聚 类 算法 是 指 把 数据 的 原始 特征 空间 分 割 为 不 同 的 特征 子 集 ， 从 不 同 的 子 空间 角度 考 
察 各 个 数据 艇 聚 类 划分 的 意义 ， 同 时 在 聚 类 过 程 中 为 每 个 数据 艇 寻找 到 相应 的 特征 子 
空间 。 子 空间 聚 类 算法 实际 上 是 将 传统 的 特征 选择 技术 和 聚 类 算法 进行 结合 ， 在 对 数 
据 样本 聚 类 划分 的 过 程 中 ， 得 到 各 个 数据 徐 对 应 的 特征 子 集 或 者 特征 权重 。 根 据 目 
前 的 研究 结果 ， 做 空间 聚 类 可 以 分 为 硬 子 空间 聚 类 和 软 子 空间 聚 类 两 种 形式 。Wei 
Ye 针对 子 空间 聚 类 提出 一 种 新 颖 的 能 在 任意 方向 找到 非 元 余 的 子 空间 聚 类 的 改进 
算法 。 论 文 使 用 独立 子 空间 分 析 方 法 CISA) 找到 子 空间 集合 ， 最 大 限度 地 减少 聚 类 
之 间 的 依赖 度 ( 元 余 度 ) 。 此 外 ， 算 法 使 用 最 小 描述 长 度 原则 来 对 参数 进行 自动 设置 。 
Dominik Mautz 基于 现 有 聚 类 算法 性 能 往往 很 大 程度 受到 参数 设置 影响 的 现状 提出 一 
种 叫 作 SubCluEns 的 集成 聚 类 算法 ， 该 算法 基于 最 小 描述 长 度 原则 ， 把 多 个 子 空间 和 
投影 子 空间 的 聚 类 结果 集成 起 来 得 到 最 后 的 聚 类 结果 (Dominik Mautz，2016) 。 

在 前 面 的 章节 中 我 们 已 经 提 到 过 聚 类 算法 属于 无 监督 学 习 。 实 际 上 传统 的 机 器 学 
习 技术 分 为 两 类 : 一 类 是 无 监督 学 习 ; 另 一 类 是 监督 学 习 。 无 监督 学 习 只 利用 未 标记 
的 样本 集 ， 而 监督 学 习 则 只 利用 标记 的 样本 集 进行 学 习 。 但 在 很 多 实际 问题 中 ， 只 有 
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少量 的 带 有 标记 的 数据 ， 因 为 对 数据 进行 标记 的 代价 有 时 很 高 ， 如 在 生物 学 中 ， 对 某 
种 蛋白 质 的 结构 分 析 或 者 功能 鉴定 ， 可 能 会 花 上 生物 学 家 很 多 年 的 工作 ， 而 大 量 的 未 
标记 的 数据 却 很 容易 得 到 。 这 就 促使 能 同时 利用 标记 样本 和 未 标记 样本 的 半 监 督学 习 
技术 迅速 发 展 起 来 。 半 监督 学 习 〈(Semi-Supervised Learning, SSL) ， 是 模式 识别 和 
机 器 学 习 领 域 研究 的 重点 问题 ， 也 是 监督 学 习 与 无 监督 学 习 相 结合 的 一 种 学 习 方法 。 
它 主 要 考虑 如 何 利用 少量 的 标注 样本 和 大 量 的 未 标注 样本 进行 训练 和 分 类 的 问题 。 主 
要 分 为 半 监 督 分 类 、 半 监督 回归 、 半 监督 聚 类 和 半 监 督 降 维 算法 。Baolin Guo 针对 半 
监督 多 标签 高 维 数据 存在 的 数据 维度 过 高 的 问题 ， 提 出 一 种 崭新 的 减少 半 监 督 多 标签 
数据 维度 的 方法 。 

在 数据 挖掘 中 应 用 得 最 多 的 算法 除了 聚 类 算法 ， 就 是 分 类 算法 了 。 在 前 面 的 章节 
提 到 过 各 种 分 类 算法 ， 其 中 神经 网 络 属于 相对 较为 复杂 的 分 类 算法 。 而 卷 积 神经 网 络 
是 人 工 神经 网 络 的 一 种 ， 已 成 为 当前 语音 分 析 和 图 像 识别 领域 的 研究 热点 。 它 的 权 值 
共享 网 络 结构 使 之 更 类 似 于 生物 神经 网 络 ， 降 低 了 网 络 模型 的 复杂 度 ， 减 少 了 权 值 的 
数量 。 该 优点 在 网 络 的 输入 是 多 维 图 像 时 表现 得 更 为 明显 ， 使 图 像 可 以 直接 作为 网 络 
的 输入 ， 避 免 了 传统 识别 算法 中 复杂 的 特征 提取 和 数据 重建 过 程 。 卷 积 网 络 是 为 识别 
二 维 形状 而 特殊 设计 的 一 个 多 层 感知 器 ， 这 种 网 络 结构 对 平移 、 比 例 缩 放 、 倾 斜 或 
其 他 形式 的 变形 具有 高 度 不 变性 。CNNs 是 受 早期 的 延 时 神经 网 络 (TDNN ) 的 影响 。 
延 时 神经 网 络 通过 在 时 间 维 度 上 共享 权 值 降低 学 习 复 杂 度 ， 适 用 于 语音 和 时 间 序 列 
信和 号 的 处 理 。CNNs 是 第 一 个 真正 成 功 训练 多 层 网 络 结构 的 学 习 算 法 。 它 利用 空间 
关系 减少 需要 学 习 的 参数 数目 以 提高 一 般 前 向 BP 算法 的 训练 性 能 。CNNs 作为 一 个 
深度 学 习 架 构 提 出 是 为 了 最 小 化 数据 的 预 处 理 要 求 。 在 CNNs 中 , 图 像 的 一 小 部 分 (局 
部 感受 区 域 ) 作为 层级 结构 的 最 低层 的 输入 ， 信 息 再 依次 传输 到 不 同 的 层 ， 每 层 通过 
一 个 数字 滤波 器 去 获得 观测 数据 的 最 显著 的 特征 。 这 个 方法 能 够 获取 对 平移 、 缩 放 和 
旋转 不 变 地 观测 数据 的 显著 特征 ， 因 为 图 像 的 局 部 感受 区 域 允许 神经 元 或 者 处 理 单元 
可 以 访问 到 最 基础 的 特征 ， 如 定向 边缘 或 者 角 点 。 在 训练 大 型 网 络 时 不 可 避免 会 碰 到 
模型 过 拟 合 的 现象 ， 因 此 模型 训练 过 程 通常 伴随 着 一 个 正则 化 过 程 ，Wei Xiong 提出 
一 种 叫 作 结构 化 相关 约束 的 正则 化 方法 ， 用 于 激活 隐藏 层 来 防止 过 拟 合并 实现 更 好 地 
泛 化 。 

KNN 算法 作为 最 经 典 的 分 类 算法 之 一 ， 由 于 其 易 理解 性 得 以 广泛 应 用 ， 但 KNN 
算法 的 算法 时 间 复 杂 度 高 一 直 是 限制 它 的 一 个 很 大 方面 ， 现 有 算法 通常 通过 减少 k 值 
或 者 随机 减少 训练 集 的 大 小 来 减少 KNN 的 时 间 复 杂 度 ,但 在 算法 复杂 度 降 低 的 同时 ， 
算法 的 分 类 性 能 往往 也 会 降低 。 因 此 怎样 有 效 地 在 保持 算法 分 类 性 能 不 变 甚 至 提升 的 
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情况 下 减少 KNN 的 算法 复杂 度 就 是 重 中 之 重 。Huahua Xie 基于 这 个 背景 ， 提 出 一 种 
在 减少 算法 时 间 复 杂 度 的 同时 保持 算法 性 能 不 变 甚至 提升 的 基于 预 分 类 的 KNN 算法 
(Huahua Xie, 2016) 。 文 章 通过 移 除 特定 的 训练 集 数据 达到 减少 训练 集 规模 的 目的 ， 
提出 在 KNN 算法 模型 之 前 对 训练 集 数据 进行 一 个 时 间 复 杂 度 较 低 的 预 分 类 ， 预 分 类 
之 后 的 训练 集 数 据 根据 预 分 类 的 预测 概率 和 设置 的 门限 值 划分 为 几 个 部 分 ， 其 中 预测 
概率 接近 0.5 的 训练 集 数 据 由 于 其 数据 本 身 具 有 模棱两可 的 特征 被 移 除 ， 预 测 概率 接 
近 0 或 1 的 训练 集 数 据 由 于 其 特征 较 明 显得 以 保存 作为 最 后 的 训练 集 数 据 。 然 后 利用 
更 新 之 后 的 训练 数据 集 执行 KNN 算法 ， 实 验 仿真 数据 证 明 这 种 方法 在 降低 算法 时 间 

复杂 度 的 同时 ， 能 保证 算法 的 分 类 性 能 不 变 甚至 有 所 提升 。 

简单 的 分 类 器 有 时 候 往往 达 不 到 想 要 的 分 类 性 能 ， 这 种 时 候 集成 学 习 就 开始 发 挥 
其 巨大 的 效用 。 集 成 学 习 是 使 用 一 系列 的 学 习 器 进行 学 习 ， 并 使 用 某 种 规则 把 各 个 学 
习 结果 进行 整合 ， 从 而 获得 比 单个 学 习 器 学 习 效 果 更 好 的 一 种 机 器 学 习 方 法 ， 是 机 器 
学 习 领 域 中 用 来 提升 分 类 算法 准确 率 的 技术 ， 主 要 包括 Bagging 和 Boosting MARA 
提升 。 机 器 学 习 方 法 在 生产 、 科 研 和 生活 中 有 着 广泛 应 用 ， 而 集成 学 习 则 是 机 器 学 习 
的 首要 热门 方向 之 一 。 集 成 学 习 的 思路 是 在 对 新 的 实例 进行 分 类 的 时 候 ， 把 若干 个 单 
个 分 类 器 集成 起 来 ， 通 过 对 多 个 分 类 器 的 分 类 结果 进行 某 种 组 合 来 决定 最 终 的 分 类 ， 
以 取得 比 单个 分 类 器 更 好 的 性 能 。 如 果 把 单个 分 类 器 比 作 一 个 决策 者 的 话 ， 集 成 学 习 
的 方法 就 相当 于 多 个 决策 者 共同 进行 一 项 决策 。 集 成 学 习 往 往 能 利用 多 个 分 类 器 整合 
的 效果 达到 比 单个 分 类 器 好 得 多 的 性 能 ， 但 万 事 有 利 必 有 弊 ， 集 成 学 习 的 多 个 分 类 器 
的 应 用 必然 导致 算法 复杂 度 及 数据 存储 空间 的 大 幅度 增加 ， 基 于 此 ，Amichai Painsky 
提出 一 种 基于 随机 森林 的 压缩 算法 ， 随 机 森林 作为 集成 算法 中 不 可 获取 的 一 部 分 ， 算 
法 步骤 如 下 : 首先 ， 从 原始 的 数据 集中 采取 有 放 回 的 抽样 ， 构 造 子 数据 集 ， 子 数据 集 
的 数据 量 是 和 原始 数据 集 相同 的 。 不 同 子 数据 集 的 元 素 可 以 重复 ， 同 一 个 子 数据 集中 
的 元 素 也 可 以 重复 。 其 次 ， 利 用 子 数据 集 来 构建 子 决策 树 ， 将 这 个 数据 放 到 每 个 子 决 
策 树 中 ， 每 个 子 决策 树 输出 一 个 结果 。 最 后 ， 如 果 有 了 新 的 数据 需要 通过 随机 森林 得 
到 分 类 结果 ， 就 可 以 通过 对 子 决策 树 的 判断 结果 的 投票 ， 得 到 随机 森林 的 输出 结果 
了 。Amichai Painsky 提出 一 种 基于 集成 树 的 概率 建 模 的 通过 Bregman 散 度 聚 类 的 集 
成 压缩 算法 。Zhengshen Jiang 提出 一 种 新 型 的 贝 叶 斯 集成 剪 枝 算 法 ， 集 成 剪 枝 算法 通 
过 移 除 性 能 不 好 的 弱 分 类 器 来 提升 分 类 性 能 。 该 文 提出 的 算法 首先 运用 优化 算法 得 到 
贝 叶 斯 最 优 集 成 规模 ， 然 后 运用 文中 提出 的 贝 叶 斯 剪 枝 方法 和 贝 叶 斯 独立 前 枝 方法 对 
集成 算法 进行 剪 枝 ， 仿 真 数据 证 明 这 两 种 剪 枝 方法 都 能 达到 比 现 有 算法 更 好 的 效果 
(Zhengshen Jiang, 2016) 。 
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除了 这 些 经 典 的 数据 挖掘 算法 ， 近 几 年 来 深度 学 习 得 到 越 来 越 多 关注 。 深 度 学 
习 的 概念 源 于 人 工 神经 网 络 的 研究 。 含 多 隐 层 的 多 层 感知 器 就 是 一 种 深度 学 习 结构 。 
深度 学 习 通 过 组 合 低层 特征 形成 更 加 抽象 的 高 层 表 示 属 性 类 别 或 特征 ， 以 发 现 数据 的 
分 布 式 特征 表示 。 深 度 学 习 的 概念 由 Hinton 等 人 于 2006 年 提出 。 基 于 深度 置信 网络 
(DBN) 提出 非 监 督 贪心 逐 层 训练 算法 ， 为 解决 深层 结构 相关 的 优化 难题 带 来 希望 ， 
随后 提出 多 层 自动 编码 器 深层 结构 。 此 外 Lecun 等 人 提出 的 卷 积 神经 网 络 是 第 一 个 真 
正 多 层 结构 学 习 算法 ， 它 利用 空间 相对 关系 减少 参数 数目 以 提高 训练 性 能 。 深 度 学 习 
是 机 器 学 习 研 究 中 的 一 个 新 的 领域 ， 其 动机 在 于 建立 、 模 拟人 脑 进行 分 析 学 习 的 神经 
网 络 ， 它 模仿 人 脑 的 机 制 来 解释 数据 ， 如 图 像 ， 声 音 和 文本 。Nastaran Mohammadian 
Rad 把 深度 学 习 应 用 到 自 闭 症 检测 中 (Nastaran Mohammadian Rad，2016) 。 

本 书 之 前 讨论 的 所 有 场景 都 是 基于 单 任务 学 习 ， 实 际 上 现实 生活 中 经 常 要 用 到 多 
任务 学 习 。Multi-task learning (多 任务 学 习 ) 是 和 single-task leaming〈 单 任务 学 习 ) 
相对 的 一 种 机 器 学 习 方法 。 拿 大 家 经 常 使 用 的 school data 做 个 简单 的 对 比 ，school 
data 是 用 来 预测 学 生成 绩 的 回归 问题 的 数据 集 ， 总 共有 139 个 中 学 的 15362 个 学 生 ， 
其 中 每 一 个 中 学 都 可 以 看 作 是 一 个 预测 任务 。 单 任务 学 习 就 是 忽略 任务 之 间 可 能 存在 
的 关系 分 别 学 习 139 个 回归 函数 进行 分 数 的 预测 ， 或 者 直接 将 139 个 学 校 的 所 有 数据 
放 到 一 起 学 习 一 个 回归 函数 进行 预测 。 而 多 任务 学 习 则 看 重任 务 之 间 的 联系 ， 通 过 联 
合 学 习 ， 同 时 对 139 个 任务 学 习 不 同 的 回归 函数 。 既 考虑 到 了 任务 之 间 的 差别 ， 又 考 
虑 到 任务 之 间 的 联系 ， 这 也 是 多 任务 学 习 最 重要 的 思想 之 一 。 单 任务 学 习 的 过 程 中 忽 
略 了 任务 之 间 的 联系 ， 而 现实 生活 中 的 学 习 任务 往往 是 有 千 丝 万 缕 的 联系 的 ， 如 多 标 
签 图 像 的 分 类 、 人 脸 的 识别 等 ， 这 些 任 务 都 可 以 分 为 多 个 子 任务 去 学 习 。 多 任务 学 
习 的 优势 就 在 于 能 发 掘 这 些 子 任务 之 间 的 关系 ， 同 时 又 能 区 分 这 些 任务 之 间 的 差别 。 
Inci M. Baytas 针对 数据 的 分 布 式 存储 ， 提 出 一 个 异步 多 任务 学 习 算 法 ， 对 于 多 个 任 
务 采 用 异步 执行 来 减少 算法 执行 时 间 (Inci M. Baytas, 2016) 。Kaixiang Lin 基于 当 
训练 数据 噪声 太 大 时 模型 会 对 交互 多 任务 模型 造成 误导 这 一 现状 提出 一 种 新 颖 的 交 
互 式 的 多 任务 学 习 框架 (Kaixiang Lin, 2016) o 

以 上 都 是 讨论 怎样 使 算法 性 能 得 以 提升 ， 那 么 怎样 对 整体 算法 的 性 能 在 不 确定 其 
内 部 算法 的 同时 对 其 进行 评价 呢 ? 黑 盒 测试 法 就 是 一 种 主要 测试 手段 。 黑 盒 测 试 也 称 
功能 测试 ， 它 是 通过 测试 来 检测 每 个 功能 是 否 都 能 正常 使 用 。 在 测试 中 ， 把 程序 看 作 
一 个 不 能 打开 的 黑 盒子 ， 在 完全 不 考虑 程序 内 部 结构 和 内 部 特性 的 情况 下 ， 在 程序 接 
口 进 行 测试 ， 它 只 检查 程序 功能 是 否 按照 需求 规格 说 明 书 的 规定 正常 使 用 ， 程 序 是 否 
能 适当 地 接收 输入 数据 而 产生 正确 的 输出 信息 。 黑 盒 测 试 着 眼 于 程序 外 部 结构 ， 不 考 
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虑 内 部 逻辑 结构 ， 主 要 针对 软件 界面 和 软件 功能 进行 测试 。Philip Adler 提出 一 种 梯 
度 特征 黑 盒 审计 算法 ， 探 索 属性 对 算法 的 间接 贡献 ， 即 是 通过 哪 一 个 特定 属性 影响 算 
法 结果 的 (Philip Adler, 2016) 。 

除了 算法 改进 型 论文 ， 会 议 收录 了 很 多 应 用 型 论文 ， 其 中 应 用 型 论文 涵盖 各 个 领 
域 ， 包 括 数据 挖掘 在 城市 规划 中 的 应 用 、 数 据 挖掘 在 社交 网 络 的 应 用 、 投 票 网 站 的 用 
户 行为 挖掘 、 空 间 数据 挖掘 应 用 。 

把 数据 挖掘 应 用 于 城市 规划 的 技术 已 经 逐渐 成 熟 。 开 放 数 据 组 织 、 网 站 的 出 现 极 
大 地 改变 了 城市 研究 开展 的 数据 基础 ， 大 批 基于 开放 数据 以 及 通过 开放 API 抓 取 自 
商业 网 站 的 半 开 放 数据 的 城市 研究 成 果 密集 涌现 ， 研 究 者 们 利用 开放 的 地 理 数 据 、 社 
会 化 网 络 数据 、 签 到 数据 、 浮 动车 轨迹 数据 等 进行 了 不 同 尺度 、 不 同 视角 的 研究 ， 既 
有 宏观 如 城市 形态 、 区 域 联系 度 研究 ， 也 有 微观 如 个 体 行为 模式 的 研究 。 虽 然 这 些 研 
究 所 使 用 数据 并 不 100% 都 属于 大 数据 范畴 ， 但 在 当前 的 大 数据 概念 热潮 下 ， 它 们 往 
往 被 打上 了 大 数据 的 标签 。 大 数据 本 身 的 概念 很 模糊 ， 而 阿里 云 的 技术 总 监 芦 桂 荣 对 
大 数据 时 代 最 典型 特征 的 判断 本 书 深 表 认 同 ， 即 “数据 的 可 获得 性 ”。 正 是 这 种 “可 
获得 性 ”奠定 了 大 数据 时 代 的 城市 研究 基础 。 开放 数据 运动 是 大 数据 应 用 于 城市 规划 、 
城市 研究 的 重要 数据 基础 ， 而 规划 人 对 社会 化 网 络 的 热衷 则 为 大 数据 迅速 对 城市 规划 
行业 造成 冲击 构成 了 传播 基础 。 与 其 他 行业 相 比 ， 规 划 行 业 规模 较 小 ， 相 互 间 的 联系 
较 紧 ; 而 规划 话题 则 社会 性 、 公 共性 较 强 ， 规 划 编 制 工 作 也 开始 强调 开放 性 ， 扩 大 公 
众 参与 ， 所 以 从 2009 年 新 浪 微 博 上 线 以 来 ， 规 划 师 群体 是 高 度 活 跃 、 互 动 性 较 强 的 
群体 ， 这 个 群体 因 其 话题 的 特殊 性 和 自身 的 活跃 度 曾 引 起 了 《南方 周末 》 等 传统 媒体 
的 关注 ， 并 进入 大 众 视野 。Ahmed Anes Bendimerad 提出 一 种 利用 社交 网 络 数据 来 进 
行 城市 规划 的 算法 ， 将 数据 挖掘 算法 应 用 于 社交 网 络 数据 ， 以 完成 城市 规划 Ahmed 
Anes Bendimerad，2016) 。 

随 着 大 数据 时 代 的 到 来 ， 数 据 量 过 大 不 便于 算法 执行 及 算法 时 间 复 杂 度 太 高 已 经 
成 为 一 个 通病 ， 因 此 通过 降 维 去 除 元 余数 据 ， 减 少数 据 的 规模 ， 以 方便 算法 的 有 效 执 
行 逐 渐 引 起 大 家 的 注意 。Jaroslaw Blasiok 提出 一 个 快速 数据 感知 的 、 线 性 等 距离 的 
降 维 方法 ， 来 达到 数据 规模 有 效 降 低 的 目的 〈Jaroslaw Blasiok, 2016) 。 随 机 梯度 下 
降 法 也 同样 可 以 用 来 对 大 量 数据 进行 数据 量规 模 的 减少 ， 但 当 有 噪声 时 随机 梯度 下 降 
法 会 出 现 梯度 更 新 有 高 方差 减 慢 收 敛 速度 的 缺点 ， 同 时 其 边际 效益 也 不 可 忽视 ， 为 解 
决 这 些 问 题 ，Soham De 提出 一 个 分 布 的 梯度 下 降 法 以 减少 数据 的 规模 (Soham De, 
2016) 。 

符号 网 络 是 指 边 具 有 正 或 负 符 号 属性 的 网 络 , 其 中 , 正 边 和 负 边 分 别 表 示 积 极 的 
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关系 和 消极 的 关系 。 真 实 世 界 的 许多 复杂 网 络 中 都 存在 对 立 的 关系 , 尤其 是 在 信息 、 
生物 和 社会 领域 。 利 用 边 的 符号 属性 去 分 析 、 理 解 和 预测 这 些 复杂 网 络 的 拓扑 结构 、 
功能 、 动 力学 行为 具有 十 分 重要 的 理论 意义 , 并 且 对 个 性 化 推荐 、 态 度 预测 、 用 户 特 
征 分 析 与 聚 类 等 都 具有 重要 的 应 用 价值 。Jose Cadena 提出 一 种 针对 符号 网 络 的 在 线 
社交 网 络 挖掘 (Jose Cadena, 2016) > 

对 于 在 线 社交 网 络 来 说 ， 子 图 计数 是 分 析 在 线 社交 网 络 最 基础 的 任务 。Xiaowei 
Chen 提出 一 种 基于 random walk 框架 的 子 图 计数 方法 , 对 社交 网 络 进行 分 析 (Xiaowei 
Chen, 2016) 。 

现 如 今 在 线 评价 和 投票 网 站 越 来 越 普 遍 ， 用 户 的 点 赞 行为 和 评论 之 间 必 然 存 在 
一 定 的 联系 ，Alceu Ferraz Costa 对 收集 的 大 量 投票 网 站 的 用 户 点 赞 行为 和 评论 行为 
数据 进行 了 建 模 分 析 ， 用 来 对 用 户 的 点 赞 和 评论 行为 进行 预测 (Alceu Ferraz Costa, 
2016) 。 

近年 来 ， 空 间 数据 挖掘 得 到 越 来 越 多 的 关注 。 空 间 数据 挖掘 即 把 数据 挖掘 的 技术 
应 用 在 空间 数据 上 ， 大 部 分 就 是 social network 数据 以 及 GPS 数据 一 一 经 度 、 纬 度 、 
时 间 等 。 从 这 些 数据 上 ， 我 们 可 以 挖掘 出 潜在 的 拓扑 结构 〈 相 邻 、 包 含 等 关系 ) 或 者 
空间 几何 结构 〈 地 理 信 息 、 面 积 等 ) ， 从 而 我 们 可 以 在 上 面 做 很 多 应 用 。 大 多 数 应 用 
其 实 是 要 建立 空间 数据 与 非 空间 数据 的 联系 。 例 如 ， 我 们 可 以 从 用 户 的 GPS 数据 来 
研究 用 户 的 行程 、 用 户 可 能 在 干什么 ， 甚 至 预测 用 户 之 间 的 相似 度 ， 从 而 建立 一 个 好 
友 推 荐 系统 。 然 而 空间 数据 挖掘 面临 的 最 大 问题 其 实 是 用 户 数据 的 隐私 问题 , 基于 此 ， 
Maryam Fanaeepour 提出 一 种 新 颖 的 考虑 到 减少 噪声 和 引入 隐 性 的 空间 数据 挖掘 算法 

(Maryam Fanaeepour，2016) 。 


大 数据 的 发 展 趋势 不 仅 体现 在 会 议 进程 的 方方面面 ， 还 体现 在 各 大 数据 挖掘 比 
赛 中 。2016 年 11 月 10 日 ， 具 有 “计算 机 奥运 会 ”之 称 的 Sort Benchmark 全 球 排序 
竞赛 公布 2016 年 最 终 成 绩 ， 腾 讯 云 大 数据 联合 团队 用 时 不 到 99 Fh (98.8 秒 ) 就 完成 
100TB 的 数据 排序 ， 打 破 阿里 云 2016 年 创造 的 329 秒 的 纪录 。 在 更 早 前 ， 百 度 创造 
的 纪录 是 716 秒 ，Hadoop 的 纪录 是 4222 秒 。 

在 这 次 竞赛 中 ， 腾 讯 云 数 智 分 布 式 计算 平台 ， 夺 得 Sort Benchmark 大 赛 Gray 
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Sort 和 Minute Sort 的 冠军 ， 总 共 创 造 四 项 世界 纪录 ， 将 2015 年 阿里 云 的 纪录 整体 提 
高 2~5 倍 。 腾 讯 名 列 全 球 大 数据 第 一 梯队 领军 企业 ， 这 也 是 全 球 大 数据 性 能 进化 史 
的 重要 里 程 碑 。 全 球 大 数据 性 能 进化 史 如 图 9-1 所 示 。 

全 球 大 数据 性 能 进化 史 


(100TB 数 据 排序 耗 时 ) 
4222s 单位 : s CBP) 














2013 年 2014 年 2015 年 2016 年 
数据 来 源 : Sort Benchmark 官 网 。 


图 9-1 全 球 大 数据 性 能 进化 史 


每 年 全 球 顶尖 公司 和 学 术 机 构 都 会 来 参加 该 赛事 ， 以 评估 软 硬 件 系统 架构 能 力 及 
最 新 研究 成 果 。 这 项 赛事 包括 四 项 比赛 ， 腾 讯 云 大 数据 联合 团队 参加 的 是 含金量 最 高 
的 Gray Sort 和 Minute Sort 两 项 排序 竞赛 ， 重 点 评测 大 规模 分 布 式 系统 的 软 硬 件 架构 
能 力 及 平台 的 计算 效率 ， 以 上 两 项 比赛 均 包括 Indy (专用 目的 排序 ) 和 Daytona Gli 
用 目的 排序 ) 两 个 子 项 。 数 智 一 举 夺 得 上 述 四 个 子 项 的 冠军 ， 总 体 将 阿里 云 2015 年 
的 纪录 提高 2 一 5 倍 。 

Gray Sort 竞赛 比拼 的 是 如 何在 最 短 的 时 间 内 ， 将 总 共 100TB， 一 共 1 万 亿 条 无 
序 的 100 字 节 纪录 ， 按 照 从 小 到 大 的 顺序 进行 排序 。 数 智 用 时 98.8 秒 完成 100TB 
的 数据 排序 , 即 每 分 钟 完成 60.7TB 的 数据 排序 , 2015 年 冠军 的 纪录 为 18.2TB/ 分 钟 。 
Minute Sort 竞赛 ， 比 拼 的 是 在 1 分 钟 之 内 能 够 完成 多 少数 据 量 的 排序 。 数 智 的 成 绩 
为 1 分 钟 完成 55TB 的 排序 ，2015 年 冠军 的 纪录 是 11TB， 数 智 将 这 一 数据 量 提升 


了 5 倍 。 
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